|
|
5 G2 D8 d" h$ Z( `
6 u! J- w& I* l5 C, b. {3 ?& h* r国内的大模型还在路上,需要给他们成长的时间。
6 ^8 j2 L, e, [5 S来源|多知网3 e( l+ o' H% A/ Q, G' Q
作者 |王上
1 R! Q2 [! U4 p' ^/ f图片来源 | 言之画
7 V3 z I3 B; R比尔 · 盖茨上周二在圣地亚哥举行的 ASU+GSV 峰会上发表主旨演讲时表示:"AI 聊天机器人将 18 个月内,可以做到教孩子阅读,辅导家庭作业。"& K4 O4 }7 h2 W' I0 _
今年 3 月和 4 月,百度和阿里巴巴分别推出了自己的大模型。目前来看,百度的文心一言和阿里的通义千问均可以多轮对话、文本创作等。
4 x, R: u) h4 \3 F5 f未来,大模型将会朝着多模态 ( 文本、图像、视频、音频等 ) 继续发展,也将越来越逼近人类的智慧。
- ]* Z! ~; h8 j- j在不少专家学者看来,如果大模型足够成熟,将改变教育体系的核心要素,包括教育目标、知识获取方式等。所以,这波 AI 技术的爆发非常值得教育领域关注。
4 h4 Y" P4 G: s5 L1 H. w那么现在,各家的大模型进展到什么程度了?是否可以在学习或者教育领域直接利用呢?我们让百度的文心一言和阿里的通义千问 PK 了一下。
$ I3 r( \: p9 M( j4 Y6 S( g我们让文心一言和通义千问在高中英语翻译、初中数学题目、高中中文写作、代码生成、青少年心理辅导方向各出了一道题目,双方针对所有问题各自回答一遍,这样就总共是 10 道题目。 a* x+ R% ~4 ~* g3 ]9 o* j
通过评测,我们看到了大模型在学习或教育类的问题上暂未成熟,尤其是数学这样要求精准的科目上,仍然需要继续训练。不过,我们依然看好大模型的未来,他们在教育领域的应用也是必然。
1 r* p1 x- y6 X& J* I# g01
: {4 b. d) q5 V8 o3 T: `' m " 作为出卷人 ":题目正常、不算偏怪难- D6 P* z. S5 C8 J' d2 z. W. {
/ y4 n+ q7 f6 C& ^0 a2 D
万万没想到,在出题上双方就迥然不同。以下是双方给出的题目:# v5 a# k! `4 x& f: E/ E+ H$ C
0 h7 P7 D5 N- \
" P' n& ]* O: p, r; N9 x( M/ ?' ?
+ d1 G% s/ G9 B$ v3 K( a3 Y5 {0 o- B$ s+ i" U
点评:文心一言每道给出了 A、B 两套题,通义千问按要求给出了 5 道题。我们给了文心一言两次机会,它依然出了 "A、B 卷 ",有些看不懂 [ 挠头 ] ……我们最后从每道题中选择了一道题,除了第 4 题外,其他题目都选择了 A 题目。: U$ r3 h( x- S& M2 Y- _2 x* @
对于这 5 道题目,通义千问看起来更灵活,也更有针对性,更像一个 " 出卷人 "。比如,第 3 题,出一道作文题目,跟通义千问的题目就非常像高考热门命题方向,是跟科技与人文相关的。从出题难度上来看,双方出的都比较偏简单。比如翻译题目,双方出的题目看起来都不像高中的英语题目。
' [. I& U" O; v6 g来看他们下面的作答情况——! {: w0 n6 y5 x3 ]! ]2 j
02
0 C* E9 ]. Y- a5 h. \9 G翻译题目6 n- H, n2 ~2 c2 z4 C
第一题英文翻译,文心一言的题目,是让把英文翻译成汉语:% f; W6 [3 P3 x0 P9 X2 I# c. [) m
: Y6 m$ I0 @- m3 N7 d1 h
2 ^* z( F. w0 v% _' v3 a8 K7 M* F7 I {, O, Z
7 E. \& s# Y; _! t z4 v" X
; L' t; Y4 }/ C4 c点评:这个题目两个都翻译的大同小异,通义千问的会更具体。可能因为题目是文心一言出的,所以它直接翻译成了汉语。而通义千问会问是 " 翻译成哪门语言 ",考虑得更周到一些。4 ]& |- n8 {- c; k* X0 L3 B
来看通义千问出的这道翻译题目:4 ^5 g" t, ^4 M5 F" f' ^
9 f* D3 s. B7 L! E6 m) j5 p$ I5 Z$ B3 ~: D o2 T. t1 o
! `) H5 w& O* }: [
( y0 P6 w% q1 i点评:文心一言翻译的是 " 请问我怎么读这个词?" ,通义千问翻译的是 " 你能告诉我这个词是什么意思吗?" 文心一言的翻译更准确一些。通义千问自己出的题却没有答好,有点匪夷所思。
9 y! F' E: W* D& u% Q% t要么跟通义千问换一个问法吧,回答如下:
' p" c' z$ F, Q9 S, h$ y$ J" P& P" \3 h0 H/ K
5 a' l+ f2 C! g0 s0 {4 Y
8 @7 ^- y. V5 X( j) ~越来越离谱了。。+ j9 l5 \0 v( \& w8 o
7 e) q! J- E$ S- I6 B8 x
9 `2 x+ W5 v* P$ R, K
: E9 [0 x$ I9 \* _8 K$ k7 u* D+ c# `- z- v- p6 ]
* o1 s" L& ~$ S6 }9 Q
通义千问多轮对话的能力堪忧……! v9 l- u- N( M. B* P
03
) c& o J7 S6 Z+ o数学题目
3 O; x. Y/ p0 G* t2 L9 m来看初中的数学题:' H4 ?3 `1 F8 \* ^0 F# I6 m: J) V8 N
- M7 i2 u8 d7 @) n
3 i/ T" J$ q/ E9 }
, t9 b6 L3 S9 _! p& ~
9 l$ |9 P2 A# T, [
( n% O2 w, q s% |点评:又一次匪夷所思,这次轮到文心一言出的题目自己也做错了。这道题目是分数相乘的结果,文心一言理解成了除法。即便理解成除法,最后也不应该等于 6。不知道这个结果怎么来的,迷之尴尬。通义千问理解对了,最后是 1/8,即 0.125,这是一个确定的值,不明白为什么最后它写的是 " 约等于 " 号,不知道是因为不自信,还是因为马虎写错了?* w$ Y2 I2 B7 y% i! f2 ]
这次二者相同的地方在:都没有给出解题步骤,也没有给出解释。
; M) b) N9 x/ a; C通义千问出的初中数学题目:4 o# ]2 ~) C7 l# m5 l4 T0 e
1 f) p1 j3 Z$ V" U) g% R/ ]
# E. g1 y. m, f6 `
) R) W, {6 ]0 k8 d+ H; j; V; x
- g5 u, x+ P* f7 R* a n, s" [ n8 ^, q, ^, t+ a+ Q; w
点评:让文心一言回答了两次,都是 x:9,y:0,文心一言可能连正三角形是什么都不知道。这个题目通义千问回答地非常清楚,给出了完整的解题过程,结果也是对的。3 L7 S9 z1 K. ?8 {: a- ~
有点不死心,再次问了文心一言:
* Z3 L' t# |5 J6 F F
- \) u; X# W v/ S2 D4 i
1 M$ `/ L+ ]. X4 g9 B1 W
$ W7 n. m, ^+ K+ \9 ^我们发现,文心一言其实知道正三角形是什么,但是,它就是解不对题目,第三遍依然错误。
* } E; l7 X- `0 Q2 S还是不甘心,继续跟文心一言对话,想着让它让画一个正三角形的图吧,如下:
- W# Q7 E q, ]2 {. [1 Z4 K% ~' U6 k- `4 [" Y; b
4 e3 \. h7 ]- {2 N. H9 X' n! h# }
7 u7 J$ s2 r/ Z+ p1 t. P这……好吧 o ( ╥﹏╥ ) o,文生图的能力还得加油啊 ~~
6 e/ b4 L% A1 J1 D$ S( ~2 ^04* o* ?3 c: ]% O
写作题目
0 ?8 V! ]9 P3 `. K来看文心一言出的写作题目,双方的作答情况:
5 F& n ^; M& }
5 t# b6 D6 F* \% {% M, [/ B7 H8 s- M2 w. ?
) Q; T( Q9 X% E! o1 y3 F
' y" V# O) O( ^2 _, N# W5 Q
t" m8 Y4 L0 D! j+ w% |
点评:从题目来说,这道题让人想到央视 2012 年的采访," 你幸福吗?" 这道题目看似简单,实则有一定难度,很容易落入俗套,很难脱颖而出。& x0 A- k W6 z6 Y- D: e7 s8 d: Z8 r* N, _
再看两者的小作文,第一句话居然神同步了。从内容来看,二者结构也基本相同,均是从各个角度阐述 " 幸福 ",不过,文心一言更偏重个人层面的感受,而通义千问涉及到社会层面以及与他人的关系。整体来看,不分伯仲。大家觉得呢?
' g x0 \. v5 |; v0 c来看通义千问出的作文题目,双方的作答情况:2 y8 M3 o% k" l3 Q$ Y
) N) [# k9 A% C0 h' \3 e+ [% z C0 f
8 T' L* J m& _+ G+ p0 V( p
* i) M- u' K" s9 Q" ^4 Y$ J4 N- |4 w6 N: |) Y
) H, U& G7 i1 K4 Y% b' Y# J! ?
% ?% ~ A( Y3 J- L6 V
6 `3 w% r2 E; W: t9 P) O
' _2 r& C1 C6 I1 t2 U' J" y9 X& D3 ?* e, v+ D6 D
* w3 p4 T' V+ l, O
. T+ U1 m7 D l, @$ `6 W点评:从题目来看,通义千问出的这个题目非常像高考作文,很有出卷人的视角,是科技创新的方向。6 u6 {/ O9 R3 i7 F1 l/ b
对于两者的写作,文心一言对这道题目似乎有很多思考,但直接按框架写作的,有点像论文,读起来有些生硬。通义千问的这篇虽然篇幅不长,但看起来更像一篇议论文。
5 C& k+ g/ d2 j% L" b: W0 u, p05
+ R6 H7 c! N7 A: w代码生成+ I, C: s8 j* m! i4 ?( D
来看代码生成的相关题目:3 ]" s' {* ]- T2 b& ]
1 c6 H5 e+ X, W5 {+ a; d- e
6 O4 [5 S% k9 G( O) C
4 e) H/ Y {) z1 ~3 M! R2 b$ F1 o( b1 ]) J7 v
% k! y& Z) w! @: Q- b点评:文科生表示看不懂,拉来一名程序员帮忙看了看,他表示:" 核心段是一样的,不过,文心一言没有声明变量。" 懂编程的老师们可以留言点评一下 ~~
# J" R A& ?* c/ n' w再来看通义千问出的这道代码生成题目,二者作答情况:
# W# `6 g3 ?! o' a T; l
o; a" Y; r( ]1 u! P$ w$ W1 I. D; e& A
8 z! N6 L1 [/ c: z8 i
7 i/ p1 y- X5 G4 u9 E
9 x* {3 m7 q3 J点评:同样来自程序员的评价:" 这两个对题目的理解都不一样,所以写的也不一样。文心一言的是生产随机字符串,26 个字母随意拼;通义千问的是随机的英文单词,我感觉这个更切合题目。"- I! m' `' O4 A: _& K4 S+ h
06# j. w4 ^8 q9 }3 J! B5 }
心理辅导1 p! G1 I7 f: P# R% n9 b
最后是心理辅导方面的题目,文心一言出的题目,看看双方的作答:
4 K4 r0 J u+ A1 v2 S
: j# G) s) J8 e. x8 D4 ~
; c! \" ?9 ]2 m# D p' a. |$ M, u% Q, f. i6 G9 t/ ^% F
4 K: U i( I# v5 m6 W
9 D3 i& S. d- p# e* I, e& c
点评:从题目来看,文心一言出的这个题目比较宽泛,比如情绪有很多种,是什么样的情绪呢?文心一言并没有说明白。在作答方面,二者在心理方面的辅导大同小异,且都是列点式的回答。两个都给出了管理情绪的具体方法,比如都提到了冥想。
( N' j8 W* g7 q) D最后一道题目,由通义千问提出的问题,看看双方的解答:
* @2 ^7 \0 J9 y z V9 l3 O5 P4 ]$ ` L) R. Z
# \1 O6 Z( X9 \! F0 }* y0 j
: q9 t2 |7 H/ X" ^; w0 ~% Z( s7 r/ g# Y4 X
2 J! b0 C0 V6 R& m0 d; A% P
' |- z5 ~1 B; K, H! y- ^. e! t
7 ?) }7 n# j# j0 K3 b, D' ~- g0 x3 v
; l) O c) B) L6 m' o; @. p2 l/ e; ?' `5 z/ F$ }
点评:首先先看题目,通义千问的问题非常具体,很有针对性。再看作答,两者给出的心理解决方案都非常具体,文心一言还给出了 " 焦虑和压力 " 形成的原因。二者给出了不同的心理辅导方案,通义千问的会更多元一些。相同的是:二者都提到了学会调节情绪,还都提供了相应的理论参考。
8 i' q& P' y3 R/ F3 L9 o3 v07, m- N$ A: g1 n6 G4 \
总结
: K* \1 ~. U6 w, Q在出题方面,通义千问像一个出题高手,针对性较强,文心一言出了 A、B 两套题,可能想提供更多的方案,但有的题目比较宽泛。, J& g- s" s- r6 [% `4 A0 Q' B1 } Y
针对题目解答,在翻译类题目上,二者不相上下,文心一言可能略胜一筹。
% Q; U1 x! f. t& z) U/ z在数学类题目上,看起来通义千问更好一些,有的还给出了清晰的解题过程,文心一言还需要提升。
7 `; Y ]: |6 q4 y7 B在作文题目上,二者各有千秋,但都还是有机器回答的痕迹。
" J! ?* k' A0 s3 f8 |; f+ ^3 i6 U在代码生成题目上,都有这方面的能力,可能文心一言需要更理解题目。, e2 z# ~! l0 K! K) i4 l8 I
在心理辅导方面,二者都比较详尽,对学生和家长来说有一定的指导意义。
8 |7 w( H" {; ]0 t- K4 x从整体作答风格来看,文心一言偏稳重,通义千问更灵活一点。9 `# c* Q0 A/ J
从答题速度上来看,通义千问的速度更快一些。比如先给文心一言输入问题,再给通义千问输入问题,最后先作答结束的是通义千问,文心一言似乎会有一个 " 思考 " 的过程。; g* E/ @& q r/ C1 x
从多轮对话能力来看,两者都有一定的多轮对话能力,都可能会根据反复对话有所校正,文心一言可能略好点,通义千问有时候比较疯魔。
, p# I) k8 @ ?5 Z8 u6 H4 J文生图方面,文心一言还需要提升,差距比较大,通义千问还没有上线文生图。
! G6 j7 C: Q* v% N+ f这次评测的均为学习或教育方面的问题,题目不多,或许评测有偏颇。整体而言,完全用我们目前的大模型来辅导学习,尚存距离。国内的大模型还在路上,需要给他们成长的时间。正如 ChatGPT 一样,它也经历了从胡乱解题,到逐渐靠近正确答案,尤其是 GPT-4,在专业和学术上接近人类水平。) }" e8 r4 |' }+ c! i3 m
盖茨说 "AI 聊天机器人将 18 个月内可以辅导作业 ",指的应该是国外的大模型,国内的或许还需要更长时间。
% B+ u x2 J, |3 @END
6 S1 _0 q {! a本文作者:王上 |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|