|
7 K7 J( X% z Y7 H. w% d" ]
: x( t1 K, P3 I# @+ s* {, o8 ~国内的大模型还在路上,需要给他们成长的时间。
; c& @2 ]7 _6 H) R来源|多知网
/ ^4 ^; b, p6 Z9 E$ o' V* S5 O6 y' v作者 |王上4 j3 e) T% A$ X, y/ D
图片来源 | 言之画1 J x6 h* p4 B
比尔 · 盖茨上周二在圣地亚哥举行的 ASU+GSV 峰会上发表主旨演讲时表示:"AI 聊天机器人将 18 个月内,可以做到教孩子阅读,辅导家庭作业。"$ D2 D+ C$ j# m/ y/ Z% `
今年 3 月和 4 月,百度和阿里巴巴分别推出了自己的大模型。目前来看,百度的文心一言和阿里的通义千问均可以多轮对话、文本创作等。
" Q& u/ ^# H9 y5 K& l& f未来,大模型将会朝着多模态 ( 文本、图像、视频、音频等 ) 继续发展,也将越来越逼近人类的智慧。4 m( y" E6 T5 f/ W R; [: b6 j
在不少专家学者看来,如果大模型足够成熟,将改变教育体系的核心要素,包括教育目标、知识获取方式等。所以,这波 AI 技术的爆发非常值得教育领域关注。4 P3 ]1 w2 n5 E8 C% T
那么现在,各家的大模型进展到什么程度了?是否可以在学习或者教育领域直接利用呢?我们让百度的文心一言和阿里的通义千问 PK 了一下。
. w. B0 s* S- V7 P我们让文心一言和通义千问在高中英语翻译、初中数学题目、高中中文写作、代码生成、青少年心理辅导方向各出了一道题目,双方针对所有问题各自回答一遍,这样就总共是 10 道题目。2 `2 g4 e( L$ D7 p4 z) l6 O
通过评测,我们看到了大模型在学习或教育类的问题上暂未成熟,尤其是数学这样要求精准的科目上,仍然需要继续训练。不过,我们依然看好大模型的未来,他们在教育领域的应用也是必然。+ N8 w1 @5 h) d/ b: C% n" {: L" t
01
* q( r# y; z* _ " 作为出卷人 ":题目正常、不算偏怪难, K% h/ o7 M& ~: S0 K
) S: A5 w# d: l) g4 C/ D万万没想到,在出题上双方就迥然不同。以下是双方给出的题目:
# \, k' N. H w" ?4 R( G
& A! y1 e$ ~; f
; ]; v0 P( u% \1 i
( C$ @: A- n; i( p, R
0 d, i/ T+ ]/ ^
; g, x2 N$ y5 Y- f& C+ t点评:文心一言每道给出了 A、B 两套题,通义千问按要求给出了 5 道题。我们给了文心一言两次机会,它依然出了 "A、B 卷 ",有些看不懂 [ 挠头 ] ……我们最后从每道题中选择了一道题,除了第 4 题外,其他题目都选择了 A 题目。# ]2 h$ m F7 X; `: q
对于这 5 道题目,通义千问看起来更灵活,也更有针对性,更像一个 " 出卷人 "。比如,第 3 题,出一道作文题目,跟通义千问的题目就非常像高考热门命题方向,是跟科技与人文相关的。从出题难度上来看,双方出的都比较偏简单。比如翻译题目,双方出的题目看起来都不像高中的英语题目。
$ |* u5 B. u. N" I& Q来看他们下面的作答情况——
3 ]5 ]$ D0 M" T/ C' I# y5 x" r02
% Z- W& t+ M8 \) H3 q, i& z" T1 _翻译题目; E3 D8 \1 h1 j) Z I, [. b, \
第一题英文翻译,文心一言的题目,是让把英文翻译成汉语:& ` J) q- l( Q4 N6 l" d% v
+ @7 E$ S2 q# }/ Y0 c. s) O9 u( H3 W! u- D( I) Q9 X# t
! ?, }3 n) u; \9 |+ v9 s" a9 x4 x% V* r1 `
" ]1 l Y& o5 b, T& N点评:这个题目两个都翻译的大同小异,通义千问的会更具体。可能因为题目是文心一言出的,所以它直接翻译成了汉语。而通义千问会问是 " 翻译成哪门语言 ",考虑得更周到一些。
/ h2 J+ F! [6 t3 v: t来看通义千问出的这道翻译题目:
* f# w1 _! i1 k; a2 `* V$ Q" f8 V( y4 n
- x6 V3 N0 E4 ~ C$ _. i
, z: Y3 `' |. k8 F* _6 x
+ a$ E5 W) }. J3 E3 k2 |+ O: `' \- { L
点评:文心一言翻译的是 " 请问我怎么读这个词?" ,通义千问翻译的是 " 你能告诉我这个词是什么意思吗?" 文心一言的翻译更准确一些。通义千问自己出的题却没有答好,有点匪夷所思。5 u0 _1 ]4 |+ \9 ^3 b2 G
要么跟通义千问换一个问法吧,回答如下:8 ]) I; i4 b$ [) l+ R
7 n* k; M- E1 t6 _5 f0 z. F
! B+ N+ z9 s& a! w
! X d$ g4 a7 @6 N) J& H) g7 N越来越离谱了。。 F; v( {5 n' N3 `
# o% Z( T# Z5 A$ G3 X/ i- K9 d& i$ A8 P* _
: i# {; `) Y5 ]+ d7 T
, a8 |* X/ E5 v% b
) ~5 x5 n9 A4 P" J4 b" a通义千问多轮对话的能力堪忧……
$ A, A- r2 C& S1 _8 x5 ^033 q! [9 Z6 y F) n$ A6 ]& t0 @
数学题目- k2 [" Q' C5 V& r- J' {/ L
来看初中的数学题:/ ]5 ~ A( F! w* D1 L2 E0 S6 T
2 @6 [+ r& e7 p, ]0 }; U
, g3 ^/ k2 U4 t* p0 N
7 R9 R- \( b4 g) d
; `8 ~- k+ B& T; s* H4 c+ b6 c
* _. B6 ~5 G4 Y1 f, u8 t3 m点评:又一次匪夷所思,这次轮到文心一言出的题目自己也做错了。这道题目是分数相乘的结果,文心一言理解成了除法。即便理解成除法,最后也不应该等于 6。不知道这个结果怎么来的,迷之尴尬。通义千问理解对了,最后是 1/8,即 0.125,这是一个确定的值,不明白为什么最后它写的是 " 约等于 " 号,不知道是因为不自信,还是因为马虎写错了?
4 t; \: g6 u( c& h这次二者相同的地方在:都没有给出解题步骤,也没有给出解释。
+ v4 |2 T7 R+ n! X8 t通义千问出的初中数学题目:
& n& K6 E. {$ I2 x
5 I7 G) z! `: r& c8 [7 o3 [3 j- T1 b/ w$ }
9 L9 y) O. s" ]
8 ^' |) H; t0 W6 `/ J5 I. `" y+ O& t
8 J0 S* x) t' B1 i7 R1 g点评:让文心一言回答了两次,都是 x:9,y:0,文心一言可能连正三角形是什么都不知道。这个题目通义千问回答地非常清楚,给出了完整的解题过程,结果也是对的。" u. a/ A6 `# a8 c1 o; ~% K
有点不死心,再次问了文心一言:
. o# O% ?9 M# L( w }% E( R8 p3 _$ ^( L% W4 k2 Y0 Y8 b
) s" X4 A! ]; J
$ _+ D" b: _2 Z1 S: a
我们发现,文心一言其实知道正三角形是什么,但是,它就是解不对题目,第三遍依然错误。
$ e0 n: d* Y+ j' D. ]8 O还是不甘心,继续跟文心一言对话,想着让它让画一个正三角形的图吧,如下:
8 [5 O- J) F) r* A$ G
3 n2 i7 J( X5 v+ K* `+ q/ Q6 _" D7 J/ z# r- I, N
5 R7 }, ` J M这……好吧 o ( ╥﹏╥ ) o,文生图的能力还得加油啊 ~~. h1 q* ]" u4 \+ q5 W$ R
048 }9 h4 P! k, ~ w
写作题目' G) J X. ~2 V! E1 d3 f" \
来看文心一言出的写作题目,双方的作答情况:( m! n3 M% U! W* p. N3 D3 C8 t
1 H8 A9 f9 B/ n' ?0 Q6 T u
1 ^& I: s/ [1 |# |$ m
3 M: y* v9 \! K( q( s9 {
7 o9 _) B1 G! J& }( R4 t5 ?1 @) Q9 y4 V/ D+ e% z* |7 `
点评:从题目来说,这道题让人想到央视 2012 年的采访," 你幸福吗?" 这道题目看似简单,实则有一定难度,很容易落入俗套,很难脱颖而出。
* I5 j: q7 v: ~. K2 S3 d再看两者的小作文,第一句话居然神同步了。从内容来看,二者结构也基本相同,均是从各个角度阐述 " 幸福 ",不过,文心一言更偏重个人层面的感受,而通义千问涉及到社会层面以及与他人的关系。整体来看,不分伯仲。大家觉得呢?# B7 l& L0 X4 R: a. w* I. v1 }
来看通义千问出的作文题目,双方的作答情况:
/ {1 G: M3 b- P% v8 @* g3 j
1 C5 ^; p4 }2 E6 ~" y6 J
* s7 p, y) @" A( [4 a) P! G7 W3 D- {4 ^
_1 W. l% ]4 V/ q0 T
7 a9 {8 K) c/ {+ N
8 V0 W1 w1 \. L9 D* t8 c* n
! b; e- s+ W' N" K8 Z7 p9 }$ b7 t+ ^, ~& ^# ~
5 U! M6 P4 W! C. N" i5 x# W
: l# D: E, Z2 b1 B( @# z/ E. I' [# Q/ ? B
点评:从题目来看,通义千问出的这个题目非常像高考作文,很有出卷人的视角,是科技创新的方向。. M- T$ s+ u. a8 {1 U
对于两者的写作,文心一言对这道题目似乎有很多思考,但直接按框架写作的,有点像论文,读起来有些生硬。通义千问的这篇虽然篇幅不长,但看起来更像一篇议论文。
+ a+ G6 s* a A7 B05
& `" l: I1 L* \3 a代码生成, Y' F4 |: u. H G& i: ?
来看代码生成的相关题目:5 [; c/ E, n# }) Q0 ]3 _$ m- ^
g8 m5 J5 o. t' o4 c: b: d4 ~" s; T+ f8 O* i4 H+ _& O6 b3 K
* S5 S" w7 @" F' V: K m2 g3 U/ c
7 d( h( N4 C3 t4 P6 H6 v点评:文科生表示看不懂,拉来一名程序员帮忙看了看,他表示:" 核心段是一样的,不过,文心一言没有声明变量。" 懂编程的老师们可以留言点评一下 ~~
8 C2 V9 y8 D* r6 J3 y. J$ [再来看通义千问出的这道代码生成题目,二者作答情况: A" n+ i$ d) Q, I
6 \/ Y8 f* C, N: E; ]/ B0 R
a- B. x: w9 z( M0 A
& [- \) z' g/ _4 U# s3 w4 W/ ~; ^
1 W# i' q( e& D2 _8 u
% ?8 v( h/ P0 e4 w+ p' b- h( v点评:同样来自程序员的评价:" 这两个对题目的理解都不一样,所以写的也不一样。文心一言的是生产随机字符串,26 个字母随意拼;通义千问的是随机的英文单词,我感觉这个更切合题目。") P9 ^! Y6 ^9 t) J7 N4 j4 u' A5 c
06
/ _: U2 l% y+ L; D( |( Q/ f4 E心理辅导; v( N* a* k O2 F7 Z3 o9 o
最后是心理辅导方面的题目,文心一言出的题目,看看双方的作答:
4 V& n s) } S T5 n8 ~+ ~# T$ }* O1 n9 ], ?# p9 }" R
( d+ A) w& _* I* H5 b
& ^' a; f7 u; @; k! ^7 T
' ?1 a; P; K6 h2 f, s/ d M
& [' h- Y, j3 q+ N
点评:从题目来看,文心一言出的这个题目比较宽泛,比如情绪有很多种,是什么样的情绪呢?文心一言并没有说明白。在作答方面,二者在心理方面的辅导大同小异,且都是列点式的回答。两个都给出了管理情绪的具体方法,比如都提到了冥想。
% R' t4 F1 h* x最后一道题目,由通义千问提出的问题,看看双方的解答:$ l# s( S8 s. j3 w
# u3 M' |$ w8 b; v6 Q* ]& Y& a5 [
/ Y5 ?, g! s1 J" {4 g7 e
- E4 `. A' {6 E c* }3 T/ s% z+ ?+ C- ^% ^* _' V
3 s4 ]+ G. p' t) ~9 ]6 \0 o5 o
: e7 z* B3 L. ^& M* C0 w8 P2 x
9 o- P/ t0 \& b
. i: a1 l! v5 o* Y( O M& F点评:首先先看题目,通义千问的问题非常具体,很有针对性。再看作答,两者给出的心理解决方案都非常具体,文心一言还给出了 " 焦虑和压力 " 形成的原因。二者给出了不同的心理辅导方案,通义千问的会更多元一些。相同的是:二者都提到了学会调节情绪,还都提供了相应的理论参考。
* [; o$ Z. ^5 B% ]07
/ W; h9 g0 w- r总结
4 e1 k) v J2 J j7 u# k4 e$ F$ Z在出题方面,通义千问像一个出题高手,针对性较强,文心一言出了 A、B 两套题,可能想提供更多的方案,但有的题目比较宽泛。
7 V& C# a3 F/ d$ ]3 P针对题目解答,在翻译类题目上,二者不相上下,文心一言可能略胜一筹。# K* \' B; Y6 `, {/ ?
在数学类题目上,看起来通义千问更好一些,有的还给出了清晰的解题过程,文心一言还需要提升。( U4 Q# d, S5 j! `
在作文题目上,二者各有千秋,但都还是有机器回答的痕迹。9 }. M4 a- W$ z8 R. P) l
在代码生成题目上,都有这方面的能力,可能文心一言需要更理解题目。
9 S+ @& W" Y. I2 w0 X9 Z在心理辅导方面,二者都比较详尽,对学生和家长来说有一定的指导意义。7 ~3 M3 m; _+ M1 ^3 x# B2 J
从整体作答风格来看,文心一言偏稳重,通义千问更灵活一点。
1 J! y" @0 B4 Z1 e) ]. C从答题速度上来看,通义千问的速度更快一些。比如先给文心一言输入问题,再给通义千问输入问题,最后先作答结束的是通义千问,文心一言似乎会有一个 " 思考 " 的过程。
, J. d3 w, ]6 G# C# v$ m1 W( x+ K从多轮对话能力来看,两者都有一定的多轮对话能力,都可能会根据反复对话有所校正,文心一言可能略好点,通义千问有时候比较疯魔。! _+ z1 p" h) w$ c5 i
文生图方面,文心一言还需要提升,差距比较大,通义千问还没有上线文生图。: \; _: L8 k3 ^6 `
这次评测的均为学习或教育方面的问题,题目不多,或许评测有偏颇。整体而言,完全用我们目前的大模型来辅导学习,尚存距离。国内的大模型还在路上,需要给他们成长的时间。正如 ChatGPT 一样,它也经历了从胡乱解题,到逐渐靠近正确答案,尤其是 GPT-4,在专业和学术上接近人类水平。
* J! u e$ V, E( k6 X. w7 r5 y盖茨说 "AI 聊天机器人将 18 个月内可以辅导作业 ",指的应该是国外的大模型,国内的或许还需要更长时间。- U- ^3 k0 u; K: }
END
& n, w( D0 r) X) s0 T; N/ Q0 Y. o本文作者:王上 |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|