|
|
, c" N$ ^( w& I
$ X/ n2 p1 i0 k. N国内的大模型还在路上,需要给他们成长的时间。# e. o1 m1 b% i
来源|多知网* b! r' b; |# q' m: m
作者 |王上/ R/ U7 d* z% R# t( i/ f1 x
图片来源 | 言之画
% T8 A* t6 G" r K) e3 X) d比尔 · 盖茨上周二在圣地亚哥举行的 ASU+GSV 峰会上发表主旨演讲时表示:"AI 聊天机器人将 18 个月内,可以做到教孩子阅读,辅导家庭作业。"0 D0 R6 D0 a7 {6 `7 e" L% p
今年 3 月和 4 月,百度和阿里巴巴分别推出了自己的大模型。目前来看,百度的文心一言和阿里的通义千问均可以多轮对话、文本创作等。" ]- N2 }; O! V8 R6 \
未来,大模型将会朝着多模态 ( 文本、图像、视频、音频等 ) 继续发展,也将越来越逼近人类的智慧。& h2 }. g# a8 i. x9 w: C* U ?
在不少专家学者看来,如果大模型足够成熟,将改变教育体系的核心要素,包括教育目标、知识获取方式等。所以,这波 AI 技术的爆发非常值得教育领域关注。
3 Z% c3 b0 R( B0 J* ~那么现在,各家的大模型进展到什么程度了?是否可以在学习或者教育领域直接利用呢?我们让百度的文心一言和阿里的通义千问 PK 了一下。4 f+ L* }3 @' B) Q, h& n8 d
我们让文心一言和通义千问在高中英语翻译、初中数学题目、高中中文写作、代码生成、青少年心理辅导方向各出了一道题目,双方针对所有问题各自回答一遍,这样就总共是 10 道题目。
1 e b% u8 `; @5 V4 H% V ?通过评测,我们看到了大模型在学习或教育类的问题上暂未成熟,尤其是数学这样要求精准的科目上,仍然需要继续训练。不过,我们依然看好大模型的未来,他们在教育领域的应用也是必然。
% a- w) O1 I& x01
! J2 ^6 A. |7 R# U. ? " 作为出卷人 ":题目正常、不算偏怪难
8 r4 p- }0 e/ s1 F9 t2 W A
- ]4 x! n0 L* R+ x ?7 o万万没想到,在出题上双方就迥然不同。以下是双方给出的题目:/ f" t2 ~2 {. ~# |: h! J
5 k6 ~6 N+ A8 U$ C8 y+ D- Q8 c
4 e: s+ q: p' s" d$ [5 c" \
" w# V# h; ]3 f$ P2 [. E" C, e0 [9 E8 w; P4 _' a+ L4 r: z& N
, {; d2 l& h0 {9 ? Y1 t6 g
点评:文心一言每道给出了 A、B 两套题,通义千问按要求给出了 5 道题。我们给了文心一言两次机会,它依然出了 "A、B 卷 ",有些看不懂 [ 挠头 ] ……我们最后从每道题中选择了一道题,除了第 4 题外,其他题目都选择了 A 题目。# |5 d- m2 z# @+ T9 l
对于这 5 道题目,通义千问看起来更灵活,也更有针对性,更像一个 " 出卷人 "。比如,第 3 题,出一道作文题目,跟通义千问的题目就非常像高考热门命题方向,是跟科技与人文相关的。从出题难度上来看,双方出的都比较偏简单。比如翻译题目,双方出的题目看起来都不像高中的英语题目。
1 X9 Y- R' v) L) I来看他们下面的作答情况——
+ l. P$ S( A u4 n& K029 p3 l, `5 O% \8 H, E/ b
翻译题目" X3 F/ T2 q8 P
第一题英文翻译,文心一言的题目,是让把英文翻译成汉语:
# A# y) C3 `( X( I5 y% q6 ^/ s
! C5 c9 \* i+ l+ {/ |8 H4 [3 L- s4 {( i1 R q3 i" ~
1 t; N9 Q0 J4 z* P; J3 e9 f, U
8 n7 f9 q1 O' g$ N" y* P- Q点评:这个题目两个都翻译的大同小异,通义千问的会更具体。可能因为题目是文心一言出的,所以它直接翻译成了汉语。而通义千问会问是 " 翻译成哪门语言 ",考虑得更周到一些。
; q1 h7 c* \, S' Y, K& b$ ]8 d来看通义千问出的这道翻译题目:1 L6 V6 q: h7 k& t3 A) g. D
8 x0 m( Y! D4 Z5 }/ Q* _. P9 j
! U G' p' G$ m/ ]; U6 e
: B1 W2 y) q. k7 P" A( X
, f3 M$ x" y; K* T点评:文心一言翻译的是 " 请问我怎么读这个词?" ,通义千问翻译的是 " 你能告诉我这个词是什么意思吗?" 文心一言的翻译更准确一些。通义千问自己出的题却没有答好,有点匪夷所思。7 P) p# T _# g% f5 J
要么跟通义千问换一个问法吧,回答如下:
" B. r! k$ |+ o+ a% X
& C; k0 C1 O' Y* C" [5 g+ G3 r+ a
/ U. D% e+ R& T0 h# M" G( M; m, Y' F
越来越离谱了。。3 M( n& k9 v: N R6 O
4 y2 ?3 k7 Q( Q) S7 B; ?. ]* `3 ~3 j
+ b4 n! a y; d# S u0 c! U
. H9 k, z7 f3 L! c6 d, p, r3 h( y: P0 R
通义千问多轮对话的能力堪忧……! c: Z9 ^* X3 a. h
03
7 f. Y* J: L/ j5 K- S/ s数学题目
- m0 j6 P: U$ o8 b w7 ^% }3 N; K来看初中的数学题:
' w, p0 `0 s6 x! a$ a6 g1 o& }
3 W& Z' }% i3 G& ^; c/ f7 ^- n6 g
4 L ~& O' n- z$ u' M1 P, ?5 q- P) y2 o/ H
$ G) o$ l& z/ p$ ?
' x! z/ @# _- w" w
点评:又一次匪夷所思,这次轮到文心一言出的题目自己也做错了。这道题目是分数相乘的结果,文心一言理解成了除法。即便理解成除法,最后也不应该等于 6。不知道这个结果怎么来的,迷之尴尬。通义千问理解对了,最后是 1/8,即 0.125,这是一个确定的值,不明白为什么最后它写的是 " 约等于 " 号,不知道是因为不自信,还是因为马虎写错了?& w# |) u8 k( @9 Y
这次二者相同的地方在:都没有给出解题步骤,也没有给出解释。* K+ ^4 L- F1 X# B: g
通义千问出的初中数学题目:" s' u! ]! d# }" O5 ~
4 W9 Q" x6 b' i1 d4 X
% H7 k; m& G8 J, R6 O* z$ } w0 }6 ^1 q b6 i+ m5 p7 {. x
- V ~+ U5 {) M: T+ Z3 |8 m8 G* d; u
点评:让文心一言回答了两次,都是 x:9,y:0,文心一言可能连正三角形是什么都不知道。这个题目通义千问回答地非常清楚,给出了完整的解题过程,结果也是对的。, a: ~8 b6 a% S7 r- P
有点不死心,再次问了文心一言:
1 ^6 W6 V& }, I& X& x: T/ v8 w# s1 g/ q& z; j
) ] i) M0 ~/ N) m
* z- N0 Q4 o5 n$ |" R8 e; ]我们发现,文心一言其实知道正三角形是什么,但是,它就是解不对题目,第三遍依然错误。# e" y, ? m' s! Q0 D) B( }
还是不甘心,继续跟文心一言对话,想着让它让画一个正三角形的图吧,如下:' A) t' n1 v; B. g3 o7 d4 z
: i/ Z2 f" w4 L: b" B1 m2 q3 a$ |4 D( q3 I! |# R& h
' M" d2 B3 V; q, O8 z" \
这……好吧 o ( ╥﹏╥ ) o,文生图的能力还得加油啊 ~~( e2 ^2 b, M- B6 A$ T# S& |
04
7 p ~9 |' m; Q& m9 e. C写作题目/ a6 K( u7 Y9 `; F
来看文心一言出的写作题目,双方的作答情况:& ?1 E* j; ~& H
2 E# @$ a/ y8 u2 `( B- w
) \ G0 z5 z; g% T
3 L/ P' m/ e6 v8 w/ j& X' p, t1 G2 p/ t: e, k. K& I! s4 ?( Y! h, ]
' C( [0 I: q# a, \% ^/ _点评:从题目来说,这道题让人想到央视 2012 年的采访," 你幸福吗?" 这道题目看似简单,实则有一定难度,很容易落入俗套,很难脱颖而出。
! j) W5 y; e5 s& i0 C9 E# O再看两者的小作文,第一句话居然神同步了。从内容来看,二者结构也基本相同,均是从各个角度阐述 " 幸福 ",不过,文心一言更偏重个人层面的感受,而通义千问涉及到社会层面以及与他人的关系。整体来看,不分伯仲。大家觉得呢?
?. s5 _1 x& R6 g( y1 c; a$ w1 ^$ S来看通义千问出的作文题目,双方的作答情况:
) R& V [; L# m Q
$ V1 p* D" J5 q( |* g7 a2 Z
' L" X0 d7 v/ l2 k& ?0 M# ~0 G7 L7 Q3 P) [% S
7 n- x9 ^# F- w3 i
( Z: z/ m, q+ n2 ^/ s( r0 ^4 B: V w( H
' s& ~# f/ ^! q; y: o: C
. I9 K9 x# q0 `+ [& |
" G) L& e3 o/ G Z% N# F
( C% D8 Q7 R) \# J9 U" {. e$ x
点评:从题目来看,通义千问出的这个题目非常像高考作文,很有出卷人的视角,是科技创新的方向。3 Q) q1 V7 i2 a9 n! _! L7 m
对于两者的写作,文心一言对这道题目似乎有很多思考,但直接按框架写作的,有点像论文,读起来有些生硬。通义千问的这篇虽然篇幅不长,但看起来更像一篇议论文。$ m/ I2 h: E6 I$ n& i
05, ~% ]8 ]( T O7 T5 j. _3 |0 d
代码生成9 {, U: G' o* @7 \! y+ c
来看代码生成的相关题目:$ m: a F A5 s9 B- }8 n* I
) h5 [0 {8 _1 m9 r0 B
( e( }6 W% C6 T
! p# M. Q. C- d6 K( O$ ?% T6 S9 u) W% |5 z
% T- s* p1 V# {9 q! z: |
点评:文科生表示看不懂,拉来一名程序员帮忙看了看,他表示:" 核心段是一样的,不过,文心一言没有声明变量。" 懂编程的老师们可以留言点评一下 ~~
7 ]0 j+ m1 n- i4 Y再来看通义千问出的这道代码生成题目,二者作答情况:1 s ?" E/ M$ M8 N! k% Y; u
# n$ _3 e- m9 D" W" A! m
$ e8 X( u# [% g1 \) p- w; h& r- v% {: x
/ [# D# S- @+ {/ G3 b
- u0 R5 w, X) c$ N' Q8 G点评:同样来自程序员的评价:" 这两个对题目的理解都不一样,所以写的也不一样。文心一言的是生产随机字符串,26 个字母随意拼;通义千问的是随机的英文单词,我感觉这个更切合题目。"
& ~' m+ ?& a" p; x06" ?/ } ^) w8 g( @9 r7 Z
心理辅导: q0 w& q/ S2 ]8 S# u# g1 }
最后是心理辅导方面的题目,文心一言出的题目,看看双方的作答:
* h }; G- C7 g A# w9 W' j0 B8 |: y7 h9 }
. `2 ]8 O' s3 m6 _
9 z0 _5 v- m& n( c( L( S7 U2 z
+ p1 q" d7 g4 h点评:从题目来看,文心一言出的这个题目比较宽泛,比如情绪有很多种,是什么样的情绪呢?文心一言并没有说明白。在作答方面,二者在心理方面的辅导大同小异,且都是列点式的回答。两个都给出了管理情绪的具体方法,比如都提到了冥想。
0 F& l* K8 i* \) ^" f; Y) n最后一道题目,由通义千问提出的问题,看看双方的解答:
5 j; O* j' d- o+ c( ]: S) |+ w3 f5 R/ h2 e! q
7 `3 ^- `: N% y# W4 d
* S! U' I v% s; _6 S) J9 f0 F! x( i! O; |0 O1 P
, F' ]8 I! C+ ^/ x# H$ ~$ e+ _
. \: t+ d( Q5 G* U& N% r
& m, |/ S) J+ T2 v5 }- @5 M. s
# ^$ q, r; r2 `$ E |+ o; h$ V5 V! o& ^3 T# e8 O. K: b
& L+ X, M& ?7 k3 \/ ?! k% T3 ]* v
点评:首先先看题目,通义千问的问题非常具体,很有针对性。再看作答,两者给出的心理解决方案都非常具体,文心一言还给出了 " 焦虑和压力 " 形成的原因。二者给出了不同的心理辅导方案,通义千问的会更多元一些。相同的是:二者都提到了学会调节情绪,还都提供了相应的理论参考。
, k! S" o0 M8 Q07
" B9 |6 h6 b2 s/ H总结
5 E" _& g4 d5 `6 Y2 x在出题方面,通义千问像一个出题高手,针对性较强,文心一言出了 A、B 两套题,可能想提供更多的方案,但有的题目比较宽泛。
" K4 U% C. N6 x* }0 a1 l针对题目解答,在翻译类题目上,二者不相上下,文心一言可能略胜一筹。
' t4 x+ q$ P2 X, C在数学类题目上,看起来通义千问更好一些,有的还给出了清晰的解题过程,文心一言还需要提升。
* U Z! x) G3 {8 s4 ~( @3 E$ G+ I. Q在作文题目上,二者各有千秋,但都还是有机器回答的痕迹。
8 ?% _# c( c1 L$ e' o. Q在代码生成题目上,都有这方面的能力,可能文心一言需要更理解题目。
; v6 E+ ?" B, h, C) h8 d! D在心理辅导方面,二者都比较详尽,对学生和家长来说有一定的指导意义。! V/ r Z0 c) M* `* w0 w
从整体作答风格来看,文心一言偏稳重,通义千问更灵活一点。
- F# o. `5 Q) J& s2 P. L6 A1 w# m从答题速度上来看,通义千问的速度更快一些。比如先给文心一言输入问题,再给通义千问输入问题,最后先作答结束的是通义千问,文心一言似乎会有一个 " 思考 " 的过程。
2 f# t A( U" r" k- P- L& @从多轮对话能力来看,两者都有一定的多轮对话能力,都可能会根据反复对话有所校正,文心一言可能略好点,通义千问有时候比较疯魔。- j! O- Y7 a& V1 b) ?) g5 ]6 r& x
文生图方面,文心一言还需要提升,差距比较大,通义千问还没有上线文生图。- R* f0 X! i) j0 P, M
这次评测的均为学习或教育方面的问题,题目不多,或许评测有偏颇。整体而言,完全用我们目前的大模型来辅导学习,尚存距离。国内的大模型还在路上,需要给他们成长的时间。正如 ChatGPT 一样,它也经历了从胡乱解题,到逐渐靠近正确答案,尤其是 GPT-4,在专业和学术上接近人类水平。
( G, S% o: m7 ?3 W7 v! V3 e盖茨说 "AI 聊天机器人将 18 个月内可以辅导作业 ",指的应该是国外的大模型,国内的或许还需要更长时间。
$ G* c4 [9 K) |END/ x. L5 d# r- W( r) Q
本文作者:王上 |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|