|
|
/ O) l9 E* T4 \3 B# p: P
, Q1 [* g0 \/ H. A0 M" K
国内的大模型还在路上,需要给他们成长的时间。8 P! j) U+ O0 ?& }
来源|多知网
F" Z! V, W9 z* m0 V$ l- r作者 |王上
& P% r3 w" _2 V图片来源 | 言之画) n) E' k0 ~" m- e# x
比尔 · 盖茨上周二在圣地亚哥举行的 ASU+GSV 峰会上发表主旨演讲时表示:"AI 聊天机器人将 18 个月内,可以做到教孩子阅读,辅导家庭作业。"
, ?: w/ o. y, h3 K9 j+ A# R今年 3 月和 4 月,百度和阿里巴巴分别推出了自己的大模型。目前来看,百度的文心一言和阿里的通义千问均可以多轮对话、文本创作等。
: B) j2 o* d1 ~1 z( M$ S7 v未来,大模型将会朝着多模态 ( 文本、图像、视频、音频等 ) 继续发展,也将越来越逼近人类的智慧。
2 m9 j U$ S# z4 Z在不少专家学者看来,如果大模型足够成熟,将改变教育体系的核心要素,包括教育目标、知识获取方式等。所以,这波 AI 技术的爆发非常值得教育领域关注。
& D# p9 F4 ?* X; t8 m那么现在,各家的大模型进展到什么程度了?是否可以在学习或者教育领域直接利用呢?我们让百度的文心一言和阿里的通义千问 PK 了一下。
+ a0 F4 l1 V4 ~$ X5 J) h5 I我们让文心一言和通义千问在高中英语翻译、初中数学题目、高中中文写作、代码生成、青少年心理辅导方向各出了一道题目,双方针对所有问题各自回答一遍,这样就总共是 10 道题目。" M5 x! Q1 `) {3 ~
通过评测,我们看到了大模型在学习或教育类的问题上暂未成熟,尤其是数学这样要求精准的科目上,仍然需要继续训练。不过,我们依然看好大模型的未来,他们在教育领域的应用也是必然。; R" g q; F, [5 Q3 X
01: o3 X$ ?* w, P5 w% v
" 作为出卷人 ":题目正常、不算偏怪难. q' c- I$ ?3 w" C0 }/ v
8 f# H: z- O9 M" k& Q1 `3 G
万万没想到,在出题上双方就迥然不同。以下是双方给出的题目:
1 Y7 M8 ^# _/ P7 W8 z$ ^( U8 b' [ T! o; u
: G6 s; K; a2 j+ J% H+ D
: T/ T. B% n! a. ] V+ H$ l! Y q D6 X) W0 E" j! R* K
' H* q! T# ? @4 W( Q# y点评:文心一言每道给出了 A、B 两套题,通义千问按要求给出了 5 道题。我们给了文心一言两次机会,它依然出了 "A、B 卷 ",有些看不懂 [ 挠头 ] ……我们最后从每道题中选择了一道题,除了第 4 题外,其他题目都选择了 A 题目。
6 z2 `8 g, K i对于这 5 道题目,通义千问看起来更灵活,也更有针对性,更像一个 " 出卷人 "。比如,第 3 题,出一道作文题目,跟通义千问的题目就非常像高考热门命题方向,是跟科技与人文相关的。从出题难度上来看,双方出的都比较偏简单。比如翻译题目,双方出的题目看起来都不像高中的英语题目。
9 E$ Y9 v# |" f& Q7 |来看他们下面的作答情况——8 b4 `6 h4 B, O- I
02
- K$ t. C; c" Y* ^$ q( B翻译题目
3 p8 _" ?8 i: F$ g( u/ K" T第一题英文翻译,文心一言的题目,是让把英文翻译成汉语:# }- Q' S+ ^9 x( a7 J' n
. Q5 A5 k3 z5 G- }
1 b( T+ ~7 b. N1 D0 W( n+ K* {
1 x& L# q$ x$ ^/ T9 `& h# J( ]2 U: Y9 G9 z, C" d, Z8 K
% i9 G8 ` Z+ G T点评:这个题目两个都翻译的大同小异,通义千问的会更具体。可能因为题目是文心一言出的,所以它直接翻译成了汉语。而通义千问会问是 " 翻译成哪门语言 ",考虑得更周到一些。/ w" e, X! h- b. k
来看通义千问出的这道翻译题目:/ `7 v0 T# }$ j" u- x
! [; F2 ^! `- ]- l
5 c; ~" i- {; I9 d s% ~) F6 `3 E5 c
. n4 `1 n+ N' v# h7 R4 N. `点评:文心一言翻译的是 " 请问我怎么读这个词?" ,通义千问翻译的是 " 你能告诉我这个词是什么意思吗?" 文心一言的翻译更准确一些。通义千问自己出的题却没有答好,有点匪夷所思。+ d4 E8 t! F1 h0 m1 m/ z" `4 D# S
要么跟通义千问换一个问法吧,回答如下:
. D2 X" M" K! V! P3 U
2 j& }( [* P# W P2 q" M4 R% a s" p* T$ j* D) Y2 [* K3 }
$ c4 K% F5 `+ x0 {+ C% n k* T, M6 Z越来越离谱了。。; }& n x& P- [, l1 @7 X! F
0 t7 J" D' V4 W/ J4 u0 n6 y: R0 C2 Y8 A1 J- r
7 c2 a9 h+ b5 ~8 R8 o9 E
7 Y* o& L, ?! c5 Q4 M, J- N
1 F& N9 a0 u1 ^( n1 p! u通义千问多轮对话的能力堪忧……/ z! Z6 R, \' u% r% q7 R. B
031 d# ^, |' ^1 S! B
数学题目: p" S% J4 l9 H) ]7 \- n
来看初中的数学题:0 `$ j; w" M& J2 J- J5 s& V; M
; Q. s. `/ u9 ?6 m+ |, d7 ~6 h
3 U- K; d! O. o' G' }3 \* u8 } n) A) j, W6 J- v5 k
" E \) P7 p8 O5 e) V$ L0 R+ A: S
; A5 n, T0 z6 N0 N点评:又一次匪夷所思,这次轮到文心一言出的题目自己也做错了。这道题目是分数相乘的结果,文心一言理解成了除法。即便理解成除法,最后也不应该等于 6。不知道这个结果怎么来的,迷之尴尬。通义千问理解对了,最后是 1/8,即 0.125,这是一个确定的值,不明白为什么最后它写的是 " 约等于 " 号,不知道是因为不自信,还是因为马虎写错了?7 ~' r: @. T6 P: P
这次二者相同的地方在:都没有给出解题步骤,也没有给出解释。8 S/ r: Q# U2 g% P7 k$ T% }
通义千问出的初中数学题目: f, P' p& C h+ U
, }" A' Y4 ?6 {$ _
# f q8 I" w+ E' N( _7 D0 x% u
7 }* t4 L) ^# U8 a
- b1 J6 z+ _+ c: N
) N* j4 o: Y: n8 m5 D点评:让文心一言回答了两次,都是 x:9,y:0,文心一言可能连正三角形是什么都不知道。这个题目通义千问回答地非常清楚,给出了完整的解题过程,结果也是对的。
4 }1 N! a! p! @. A有点不死心,再次问了文心一言:
- u' \ q' n. u: j$ D; [7 U
5 K1 s& P4 l& b
+ F" X. _0 b) l n* k3 w
5 y7 L' H4 g3 k. A+ t4 ]我们发现,文心一言其实知道正三角形是什么,但是,它就是解不对题目,第三遍依然错误。8 S( E% c4 G+ c& W: F% _
还是不甘心,继续跟文心一言对话,想着让它让画一个正三角形的图吧,如下:* D0 @' e) L: M( K. Q& b/ f
j) x; I: f" g
# M! k2 H/ i" o& q" t f9 p. l4 i5 q- S# _- G/ F! a0 X2 L/ W
这……好吧 o ( ╥﹏╥ ) o,文生图的能力还得加油啊 ~~; E( f$ p. f5 K6 {# Q W8 A
04
& K" Y) J. q% z* z9 I2 {( r, y写作题目
% e" ^1 ? S4 l+ @8 A, i1 I来看文心一言出的写作题目,双方的作答情况:7 z: A% s) z- P
9 C. z- V& ^8 s2 \0 n! l
v" W- A8 l4 c A, i& e1 A% G/ Y- ~+ ~6 X
) l8 s' o+ r$ i% R2 ]7 Z' S6 N' m' @+ z, _
点评:从题目来说,这道题让人想到央视 2012 年的采访," 你幸福吗?" 这道题目看似简单,实则有一定难度,很容易落入俗套,很难脱颖而出。
6 c. A0 H3 x# u- D4 j4 v再看两者的小作文,第一句话居然神同步了。从内容来看,二者结构也基本相同,均是从各个角度阐述 " 幸福 ",不过,文心一言更偏重个人层面的感受,而通义千问涉及到社会层面以及与他人的关系。整体来看,不分伯仲。大家觉得呢?& C8 ^' J* N2 g. g. m# w; k
来看通义千问出的作文题目,双方的作答情况:
$ |; U6 ~, [- a" Z" M3 U9 T: }9 X Y( G
4 {( [9 N" J( G9 L1 C* n( u8 W. ]' ~: A; }; V
' N1 [8 w7 U6 M0 y0 }8 P, z
: R5 a+ _- E% E9 j4 S
$ P: E% S( i7 M
5 E) F/ {9 U) N# R
3 |! U9 q$ p7 B2 E& f, S
F1 [+ j/ i8 h! @& [/ D# \" O8 V6 Z& Y4 ~6 b
, P! v3 B% E/ C7 c1 R' W
点评:从题目来看,通义千问出的这个题目非常像高考作文,很有出卷人的视角,是科技创新的方向。
8 S2 r! |3 j Q m0 C9 U对于两者的写作,文心一言对这道题目似乎有很多思考,但直接按框架写作的,有点像论文,读起来有些生硬。通义千问的这篇虽然篇幅不长,但看起来更像一篇议论文。
m2 M1 F+ R2 c- D/ y05
$ I' x P* l0 d; k代码生成# `) j& e( j9 s) m. O" _
来看代码生成的相关题目:
$ F4 _/ [3 @, N* v4 D5 V' d3 P' L0 K) t
, p; }* h8 J- ?% H( h3 Z3 l& F7 A% y: M5 W1 _& U
+ y5 F6 V# ^5 _' x) s* I9 x w, R/ K* Z( d
点评:文科生表示看不懂,拉来一名程序员帮忙看了看,他表示:" 核心段是一样的,不过,文心一言没有声明变量。" 懂编程的老师们可以留言点评一下 ~~, O" G) a# j8 D8 b6 @( P$ E" S
再来看通义千问出的这道代码生成题目,二者作答情况:. E$ f5 b* B% o* G2 T4 c8 w
0 b1 c: Z7 g+ Q$ j4 L8 O
* s- W) ~2 {1 Y Q
& w6 o6 J0 l7 Y3 B$ y9 j G" t$ J6 e9 P% m. V; T7 m
% P+ S) M- S! \' g# C; w点评:同样来自程序员的评价:" 这两个对题目的理解都不一样,所以写的也不一样。文心一言的是生产随机字符串,26 个字母随意拼;通义千问的是随机的英文单词,我感觉这个更切合题目。"
3 J7 _* @+ y/ X6 f061 X& Y2 I& g$ n0 p& W, ^
心理辅导1 C' }6 r: _9 B! _! i
最后是心理辅导方面的题目,文心一言出的题目,看看双方的作答:6 N" f9 ?0 n8 D7 q5 x3 Q* C( e
# ^4 o) z Q% V n# y- x- b/ E, u9 w* o$ L; V
) Y$ h6 E2 ]3 q
/ G* `7 @* F, x3 |/ }) x3 k/ ]( |/ h, S/ s
点评:从题目来看,文心一言出的这个题目比较宽泛,比如情绪有很多种,是什么样的情绪呢?文心一言并没有说明白。在作答方面,二者在心理方面的辅导大同小异,且都是列点式的回答。两个都给出了管理情绪的具体方法,比如都提到了冥想。) O! J$ W0 O: ?" [
最后一道题目,由通义千问提出的问题,看看双方的解答:
! ]' J g* A1 H$ g. M2 h( q. J7 Z1 j( l1 M; u2 u& W
6 b- K( [* s1 Q% A, X% a% i( T! A& A3 w! q" s9 l
& W5 p" P' O% H* y5 t$ Z# p s& {) L5 V9 Q5 P1 H
. [& V. r4 }0 i3 ~5 v; v4 _2 [. @ A" M& q3 R0 q
; f I- a% a8 c/ W! i- x; r. V# _2 o) ?
点评:首先先看题目,通义千问的问题非常具体,很有针对性。再看作答,两者给出的心理解决方案都非常具体,文心一言还给出了 " 焦虑和压力 " 形成的原因。二者给出了不同的心理辅导方案,通义千问的会更多元一些。相同的是:二者都提到了学会调节情绪,还都提供了相应的理论参考。5 R* J3 s9 e, k6 q; \: s
07. V4 _! d/ t0 a& p
总结7 G3 D5 Z; U" b# \$ u
在出题方面,通义千问像一个出题高手,针对性较强,文心一言出了 A、B 两套题,可能想提供更多的方案,但有的题目比较宽泛。( s( [$ y8 [# V% X! l) R2 }, A v
针对题目解答,在翻译类题目上,二者不相上下,文心一言可能略胜一筹。* I( T4 ~: B7 g% E" @$ s0 L
在数学类题目上,看起来通义千问更好一些,有的还给出了清晰的解题过程,文心一言还需要提升。
- c# e6 E! Y0 p; p; U7 c x在作文题目上,二者各有千秋,但都还是有机器回答的痕迹。
* j5 K% ~8 t+ P, O" o: K5 v+ `在代码生成题目上,都有这方面的能力,可能文心一言需要更理解题目。 \; f( g: B5 T: m0 h$ F8 u; P( Z
在心理辅导方面,二者都比较详尽,对学生和家长来说有一定的指导意义。
/ D9 x' U) D( C2 ~从整体作答风格来看,文心一言偏稳重,通义千问更灵活一点。
8 K$ P) W- q; h0 f0 Z从答题速度上来看,通义千问的速度更快一些。比如先给文心一言输入问题,再给通义千问输入问题,最后先作答结束的是通义千问,文心一言似乎会有一个 " 思考 " 的过程。( I5 S! Q/ V) V6 g9 [
从多轮对话能力来看,两者都有一定的多轮对话能力,都可能会根据反复对话有所校正,文心一言可能略好点,通义千问有时候比较疯魔。1 J( h# I* V. s, W& O8 E0 D
文生图方面,文心一言还需要提升,差距比较大,通义千问还没有上线文生图。
7 @# n( J) {9 u& l) \" k7 R这次评测的均为学习或教育方面的问题,题目不多,或许评测有偏颇。整体而言,完全用我们目前的大模型来辅导学习,尚存距离。国内的大模型还在路上,需要给他们成长的时间。正如 ChatGPT 一样,它也经历了从胡乱解题,到逐渐靠近正确答案,尤其是 GPT-4,在专业和学术上接近人类水平。
4 _0 b" S% j- l4 P3 W. P! S+ o盖茨说 "AI 聊天机器人将 18 个月内可以辅导作业 ",指的应该是国外的大模型,国内的或许还需要更长时间。
L' ? v- H/ z; AEND+ V; {# I* P7 t |( h
本文作者:王上 |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|