|
. n8 C/ h: c" I% |
. v; {! Y# z4 h
国内的大模型还在路上,需要给他们成长的时间。$ n, i7 F; z1 ]: r9 m+ ~8 h
来源|多知网) i! V& G, \4 N
作者 |王上
# P1 ?: K8 I7 ?# \* ]& W) Y图片来源 | 言之画
: V! y! u/ @5 |( W2 o/ ]8 J4 ?比尔 · 盖茨上周二在圣地亚哥举行的 ASU+GSV 峰会上发表主旨演讲时表示:"AI 聊天机器人将 18 个月内,可以做到教孩子阅读,辅导家庭作业。"( q( x6 H5 Y0 B+ C
今年 3 月和 4 月,百度和阿里巴巴分别推出了自己的大模型。目前来看,百度的文心一言和阿里的通义千问均可以多轮对话、文本创作等。9 [$ G; x8 w: |6 `7 C2 B8 j( L6 G$ X7 ]
未来,大模型将会朝着多模态 ( 文本、图像、视频、音频等 ) 继续发展,也将越来越逼近人类的智慧。) W( b) O D; X1 V# ^9 G
在不少专家学者看来,如果大模型足够成熟,将改变教育体系的核心要素,包括教育目标、知识获取方式等。所以,这波 AI 技术的爆发非常值得教育领域关注。
0 X( C2 w: L* s+ a4 ?( ?% D6 n/ I% w那么现在,各家的大模型进展到什么程度了?是否可以在学习或者教育领域直接利用呢?我们让百度的文心一言和阿里的通义千问 PK 了一下。+ {/ O. f8 k/ p/ ^8 m$ b
我们让文心一言和通义千问在高中英语翻译、初中数学题目、高中中文写作、代码生成、青少年心理辅导方向各出了一道题目,双方针对所有问题各自回答一遍,这样就总共是 10 道题目。
& O. P, `( c7 \5 ]通过评测,我们看到了大模型在学习或教育类的问题上暂未成熟,尤其是数学这样要求精准的科目上,仍然需要继续训练。不过,我们依然看好大模型的未来,他们在教育领域的应用也是必然。( c" u2 S, S, M+ _/ K& Q
01/ @4 m/ J4 K8 U6 x5 h( `7 C
" 作为出卷人 ":题目正常、不算偏怪难
, T$ y1 O5 ]7 r! t% A( z
0 l$ ]$ b6 h- E( e, {' n万万没想到,在出题上双方就迥然不同。以下是双方给出的题目:+ c1 o9 X) Z& d/ \6 l$ B; a
$ X" a! A% Y0 N) [) e( B0 p" I9 u3 @" [$ Z* @9 X Z
3 @. h( m6 d8 N, |9 Y& y4 |; D+ _" E c1 [: ?& V2 q$ d) j
- y7 w w! X2 o5 Y# [点评:文心一言每道给出了 A、B 两套题,通义千问按要求给出了 5 道题。我们给了文心一言两次机会,它依然出了 "A、B 卷 ",有些看不懂 [ 挠头 ] ……我们最后从每道题中选择了一道题,除了第 4 题外,其他题目都选择了 A 题目。
; s6 `5 E2 j, V6 v: j对于这 5 道题目,通义千问看起来更灵活,也更有针对性,更像一个 " 出卷人 "。比如,第 3 题,出一道作文题目,跟通义千问的题目就非常像高考热门命题方向,是跟科技与人文相关的。从出题难度上来看,双方出的都比较偏简单。比如翻译题目,双方出的题目看起来都不像高中的英语题目。
- C, O* x4 j G. S1 y T( ?# ?; X来看他们下面的作答情况——
) ?9 [+ A1 ~ [7 k% ?2 G02
" O' `2 j+ d* Y. p1 P翻译题目" Z! R% O9 R: c7 ?" ]5 P# B; [( G
第一题英文翻译,文心一言的题目,是让把英文翻译成汉语:
5 ]3 Y( c$ T t: m+ H+ H. T& j% r. S. h6 X+ q" i* p
# L; I; U+ x1 Q X# H( @
# r+ V7 v6 e& z$ S5 w: ]0 \! H- D! {! j$ q2 [0 w" E9 o
@' | o# z, U+ H8 W" O点评:这个题目两个都翻译的大同小异,通义千问的会更具体。可能因为题目是文心一言出的,所以它直接翻译成了汉语。而通义千问会问是 " 翻译成哪门语言 ",考虑得更周到一些。
) q. i a; g- }1 Q/ L; W! W' O来看通义千问出的这道翻译题目:6 I$ x$ ?8 O4 T5 G9 a1 `
* [6 J. K$ C7 K" u. G/ o! b8 Y/ N6 \
) F! N ~2 K" M2 o% Y# k7 q/ b% y( V, r" J O8 H% _' _
u- P7 r: U5 P; D* G8 [点评:文心一言翻译的是 " 请问我怎么读这个词?" ,通义千问翻译的是 " 你能告诉我这个词是什么意思吗?" 文心一言的翻译更准确一些。通义千问自己出的题却没有答好,有点匪夷所思。& i2 ~7 r1 ~ L) L* h- Y6 B
要么跟通义千问换一个问法吧,回答如下:0 X; X6 D4 c7 n/ N
: M( d8 E7 f6 @0 E* N& b. n
& ?6 c4 z2 N0 n, f3 e! s8 \
# I; Z( O, T. i5 e7 X( }- D! |越来越离谱了。。# e% w9 i' |% b' w
, Z* u3 a7 Q0 x2 n% ~
- ?) M7 |( _# i+ v1 M; ?# `0 ]4 ~: ]% f, U, o# Y3 t+ w
" f; K2 s; K# a. h$ N; `
) J+ D2 l* D4 ?2 v, ^, ?3 {
通义千问多轮对话的能力堪忧……
% g$ s) w+ P; c/ D$ E/ I4 E% J- s03. n+ o# ~/ `" z# o2 }8 Q
数学题目
2 C' ]1 n8 P! G3 q来看初中的数学题:
4 N* S2 `& @4 A6 C0 c; y. p0 z% n: d; S; W J. U# x
9 D$ _" ~! C6 @# x+ M9 P" g
4 m+ q9 F/ y0 B: Y+ L
6 n5 U% L G/ O7 N3 E
: D6 U( f. l3 }
点评:又一次匪夷所思,这次轮到文心一言出的题目自己也做错了。这道题目是分数相乘的结果,文心一言理解成了除法。即便理解成除法,最后也不应该等于 6。不知道这个结果怎么来的,迷之尴尬。通义千问理解对了,最后是 1/8,即 0.125,这是一个确定的值,不明白为什么最后它写的是 " 约等于 " 号,不知道是因为不自信,还是因为马虎写错了?1 }& w5 E) U5 a2 `( e4 o, I
这次二者相同的地方在:都没有给出解题步骤,也没有给出解释。7 ~6 J6 j) Z. C6 T# F
通义千问出的初中数学题目:
5 X. |3 h2 D1 z! E5 c" |
. P* g1 v4 d& H9 \ _: B" a: x! l5 A- N- W
1 D! X) d9 H7 b$ K
$ z4 a5 \, s/ ]
7 ^% i2 H% D$ k' K' a点评:让文心一言回答了两次,都是 x:9,y:0,文心一言可能连正三角形是什么都不知道。这个题目通义千问回答地非常清楚,给出了完整的解题过程,结果也是对的。( g: [' O8 o9 u1 m1 F
有点不死心,再次问了文心一言:
$ Y# x/ i, G' n% P/ O+ v, e% `
1 p7 d) p+ V4 k$ @( _) y' \$ t- r, \: `4 E/ B5 \& h6 {& N
: G) p: H! t% C3 i
我们发现,文心一言其实知道正三角形是什么,但是,它就是解不对题目,第三遍依然错误。, w4 Z' g. q' v" P
还是不甘心,继续跟文心一言对话,想着让它让画一个正三角形的图吧,如下:6 v4 b% c& X; c/ p# E( O4 [
+ d2 u. j3 \7 i8 e S/ s/ Z2 h9 d1 Y
$ ?; v+ P+ i' F这……好吧 o ( ╥﹏╥ ) o,文生图的能力还得加油啊 ~~) Q8 k3 S0 m6 u6 S( J9 ^
04
! S0 U' ~* ~+ M1 X写作题目
i6 ^" l! [& g来看文心一言出的写作题目,双方的作答情况:6 L6 ]$ a( O9 D+ v3 f
- C7 Q! y- F/ w/ j9 Q3 M( q) D1 _$ A
- v! @& b, W4 e. }3 v
0 U1 Y: H$ U5 K1 \3 H& S2 }7 p. N1 y- T+ g
0 f& i6 Q- [7 `# R9 X7 j0 ^+ E8 O' Q
点评:从题目来说,这道题让人想到央视 2012 年的采访," 你幸福吗?" 这道题目看似简单,实则有一定难度,很容易落入俗套,很难脱颖而出。
+ R& Z* X8 c! _7 X( d/ I* q1 D再看两者的小作文,第一句话居然神同步了。从内容来看,二者结构也基本相同,均是从各个角度阐述 " 幸福 ",不过,文心一言更偏重个人层面的感受,而通义千问涉及到社会层面以及与他人的关系。整体来看,不分伯仲。大家觉得呢?' {0 A* W+ E( a
来看通义千问出的作文题目,双方的作答情况:# p/ P8 q% L X5 a/ I
" [+ T S9 ^# R* f- M
+ _/ ?/ N4 g2 o; }
9 d/ V' G- I5 `4 d) b% c1 V
8 c# E" t: c$ Y L8 a2 P; N3 R5 O5 P, s, o l
1 |+ l& H/ \: b' P6 x' J: g' w) \9 ^3 s
# q& a( n4 b+ p* m+ x# A8 I
/ O' |( s# S( V+ |, ?
+ j/ J$ z. ]3 t U* s+ y9 w
5 r* T" y' M1 U$ `点评:从题目来看,通义千问出的这个题目非常像高考作文,很有出卷人的视角,是科技创新的方向。
; h4 y! a5 O9 @+ \对于两者的写作,文心一言对这道题目似乎有很多思考,但直接按框架写作的,有点像论文,读起来有些生硬。通义千问的这篇虽然篇幅不长,但看起来更像一篇议论文。* v' Y8 Q, S" S
05
6 S6 i, w. s* Y4 [5 _代码生成) ^" ?3 `3 g0 p" D1 y$ k1 m+ M
来看代码生成的相关题目:
8 K' m/ D4 C; S- `4 T6 w& _4 o8 q& i2 S/ p) u7 C
. c9 C1 p- p# r' f* t: c+ A
. J7 l) A4 Q8 k1 b9 m; @. a1 r8 ]+ O8 t
( m; s2 q& {; j& S点评:文科生表示看不懂,拉来一名程序员帮忙看了看,他表示:" 核心段是一样的,不过,文心一言没有声明变量。" 懂编程的老师们可以留言点评一下 ~~* C- {" J* j4 I. X
再来看通义千问出的这道代码生成题目,二者作答情况:. s( B I0 _$ Z5 N7 Y8 ^- i9 N
4 ?* `5 L9 l6 X" ]3 W
& F4 Q- w$ F7 t; `( R
0 g$ q9 S7 A0 V: [. X8 b) l% E
4 m0 M$ `) w3 r, S9 U* Z6 w Y3 {7 h* g9 z; H7 c+ b. L/ O
点评:同样来自程序员的评价:" 这两个对题目的理解都不一样,所以写的也不一样。文心一言的是生产随机字符串,26 个字母随意拼;通义千问的是随机的英文单词,我感觉这个更切合题目。"/ ]- }. ~" Y- z: A1 l5 d
060 y' {1 h# G( N4 T. o7 K! f6 v
心理辅导
8 H- \+ B( q0 z( p- S4 u5 ? o1 w最后是心理辅导方面的题目,文心一言出的题目,看看双方的作答:/ P% M* P" f6 @. p* D& \/ ]' \
1 p+ F! e! M2 |" h5 }/ n
/ s$ d) x5 d+ P) ]
% V: q* q, C, Z# N. w$ C
1 ]3 N7 H0 \1 }5 l* R) J
5 W( |8 Q" T5 |0 b2 o% _
点评:从题目来看,文心一言出的这个题目比较宽泛,比如情绪有很多种,是什么样的情绪呢?文心一言并没有说明白。在作答方面,二者在心理方面的辅导大同小异,且都是列点式的回答。两个都给出了管理情绪的具体方法,比如都提到了冥想。
! h3 `* A/ }% p最后一道题目,由通义千问提出的问题,看看双方的解答:
8 `; F; c$ i" L) u7 `6 n* I- j3 D( H" m4 b% O8 }1 F) M$ b
2 Q& g2 l: b. ~* @$ M0 D1 c- H9 V
5 Q s4 f( g% A/ G. Z' i; h, d
2 P, e4 I/ g1 X3 F; R. a: z9 @6 M0 r! z: y' p# [7 r
* t5 q2 Q8 N8 _( Q8 N5 [ \' m' y/ D' l* Y$ m
( }) k" P2 b$ i7 V; X
点评:首先先看题目,通义千问的问题非常具体,很有针对性。再看作答,两者给出的心理解决方案都非常具体,文心一言还给出了 " 焦虑和压力 " 形成的原因。二者给出了不同的心理辅导方案,通义千问的会更多元一些。相同的是:二者都提到了学会调节情绪,还都提供了相应的理论参考。( v) J0 E& d) l: U$ o e( \- N# q
07
9 \! C% a# g. U, c& X# V5 d总结! u- s# l5 e+ m& N+ n) Z+ |3 S
在出题方面,通义千问像一个出题高手,针对性较强,文心一言出了 A、B 两套题,可能想提供更多的方案,但有的题目比较宽泛。 i( A' i% c8 ^7 N- R
针对题目解答,在翻译类题目上,二者不相上下,文心一言可能略胜一筹。+ A6 o& \8 e, }- C6 [3 p9 W
在数学类题目上,看起来通义千问更好一些,有的还给出了清晰的解题过程,文心一言还需要提升。
/ Z8 b- z( A9 O( n3 f: q9 {; J在作文题目上,二者各有千秋,但都还是有机器回答的痕迹。, j/ l3 N0 _! W
在代码生成题目上,都有这方面的能力,可能文心一言需要更理解题目。6 U4 y* w8 ^4 M* E. m
在心理辅导方面,二者都比较详尽,对学生和家长来说有一定的指导意义。, f8 H9 R6 t( O' N
从整体作答风格来看,文心一言偏稳重,通义千问更灵活一点。* z# a7 i: p; H
从答题速度上来看,通义千问的速度更快一些。比如先给文心一言输入问题,再给通义千问输入问题,最后先作答结束的是通义千问,文心一言似乎会有一个 " 思考 " 的过程。
; u- O2 @# p& D0 V; |从多轮对话能力来看,两者都有一定的多轮对话能力,都可能会根据反复对话有所校正,文心一言可能略好点,通义千问有时候比较疯魔。3 X* i( b, D( q+ y
文生图方面,文心一言还需要提升,差距比较大,通义千问还没有上线文生图。, H; ^. R P1 U% U3 p
这次评测的均为学习或教育方面的问题,题目不多,或许评测有偏颇。整体而言,完全用我们目前的大模型来辅导学习,尚存距离。国内的大模型还在路上,需要给他们成长的时间。正如 ChatGPT 一样,它也经历了从胡乱解题,到逐渐靠近正确答案,尤其是 GPT-4,在专业和学术上接近人类水平。
6 _+ x9 Y% r6 H6 S/ l: [8 k2 X盖茨说 "AI 聊天机器人将 18 个月内可以辅导作业 ",指的应该是国外的大模型,国内的或许还需要更长时间。7 c. Q3 W- n2 ?- P9 Q
END- B' \: Y5 u3 q6 N" F) v
本文作者:王上 |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|