|
|
. S1 S/ Z7 W( M! O8 C% O
* F6 w9 Q* ~. @5 J* e! I8 y& v国内的大模型还在路上,需要给他们成长的时间。
6 I$ Z- I# ^% O来源|多知网
$ }7 c! B. M% ^/ F4 f$ W作者 |王上
" O# e j$ E# }' c& Y图片来源 | 言之画
: ~( @ ]8 N0 v+ E比尔 · 盖茨上周二在圣地亚哥举行的 ASU+GSV 峰会上发表主旨演讲时表示:"AI 聊天机器人将 18 个月内,可以做到教孩子阅读,辅导家庭作业。"
( {" I+ a# M& r* H& q% D今年 3 月和 4 月,百度和阿里巴巴分别推出了自己的大模型。目前来看,百度的文心一言和阿里的通义千问均可以多轮对话、文本创作等。/ O. P. s7 X+ w
未来,大模型将会朝着多模态 ( 文本、图像、视频、音频等 ) 继续发展,也将越来越逼近人类的智慧。
; b: b# a% O* n在不少专家学者看来,如果大模型足够成熟,将改变教育体系的核心要素,包括教育目标、知识获取方式等。所以,这波 AI 技术的爆发非常值得教育领域关注。
+ h8 ^0 t7 X( L( F那么现在,各家的大模型进展到什么程度了?是否可以在学习或者教育领域直接利用呢?我们让百度的文心一言和阿里的通义千问 PK 了一下。
5 \: U3 V4 X' H$ [ i4 {* e' r我们让文心一言和通义千问在高中英语翻译、初中数学题目、高中中文写作、代码生成、青少年心理辅导方向各出了一道题目,双方针对所有问题各自回答一遍,这样就总共是 10 道题目。1 x" ]3 q5 w6 L/ B5 ?
通过评测,我们看到了大模型在学习或教育类的问题上暂未成熟,尤其是数学这样要求精准的科目上,仍然需要继续训练。不过,我们依然看好大模型的未来,他们在教育领域的应用也是必然。
5 t) C* e/ E, z4 y( r Q% o' e. o4 Y01
. l% g- j* j) v8 d " 作为出卷人 ":题目正常、不算偏怪难
. V/ C9 w# ], i9 H. y/ c( D, I4 Y
g4 j' L6 ~4 |; {- g! ^+ W万万没想到,在出题上双方就迥然不同。以下是双方给出的题目:
+ z/ e* ~5 R4 j9 |* b2 J
) W) C" v$ J- Y" j/ k' M& \! }% I' M: g6 g/ `
5 T0 T3 \# B+ x8 u( U/ F$ a
' K2 R, k( U2 {/ g) N: ?
" d8 S* Q' ^) Y% L" i点评:文心一言每道给出了 A、B 两套题,通义千问按要求给出了 5 道题。我们给了文心一言两次机会,它依然出了 "A、B 卷 ",有些看不懂 [ 挠头 ] ……我们最后从每道题中选择了一道题,除了第 4 题外,其他题目都选择了 A 题目。6 G- y" S" d5 h J3 h; k; }
对于这 5 道题目,通义千问看起来更灵活,也更有针对性,更像一个 " 出卷人 "。比如,第 3 题,出一道作文题目,跟通义千问的题目就非常像高考热门命题方向,是跟科技与人文相关的。从出题难度上来看,双方出的都比较偏简单。比如翻译题目,双方出的题目看起来都不像高中的英语题目。' r% @+ f" a$ z4 p4 T
来看他们下面的作答情况——
/ p$ G1 H& F( H. C; j Q8 X025 e, H3 i) _5 Y C
翻译题目( x3 @7 J0 G e! m0 D+ r
第一题英文翻译,文心一言的题目,是让把英文翻译成汉语:2 x2 F- O' w! J4 [. t* B5 q5 D( n
1 p" F$ s, b: z9 W7 T
: Y1 [: t, u0 V
4 I# m4 r. X/ l
4 S6 g( F l9 |. W* f( K
% E# F2 B- P: A点评:这个题目两个都翻译的大同小异,通义千问的会更具体。可能因为题目是文心一言出的,所以它直接翻译成了汉语。而通义千问会问是 " 翻译成哪门语言 ",考虑得更周到一些。
. J/ r+ `5 t6 G2 m. e, u来看通义千问出的这道翻译题目:
: I" A! d& \ |( O' m- S# V7 y/ z& z1 L6 o
3 o* w7 U9 w3 O2 Z+ {
* G) Z, m, w& i( C B' C! `! U
2 F5 T$ g. \# s2 j点评:文心一言翻译的是 " 请问我怎么读这个词?" ,通义千问翻译的是 " 你能告诉我这个词是什么意思吗?" 文心一言的翻译更准确一些。通义千问自己出的题却没有答好,有点匪夷所思。8 F3 V4 W3 r+ ?4 q& o% O2 l$ j( U
要么跟通义千问换一个问法吧,回答如下:
% T* j& e# Q" C9 {' W+ g- H; w3 I/ G+ X! `$ ?
, b& e+ ?2 K3 x1 S
' H* p5 u4 T: ?' ~
越来越离谱了。。
, \: ~9 m# B7 H4 I* O0 e
6 I; P- F. M. {, r
* J; t) Y; ~8 n9 u! |
, s5 x6 y% ~# ^" \: I6 _" i) n& r1 w" @
5 n7 w9 g6 `3 G1 I通义千问多轮对话的能力堪忧……/ \/ }. H8 v n. Z
03
& K' r: a/ q" ^2 W7 C' C! K0 o数学题目; `/ C- D& G4 Q# J
来看初中的数学题:
- P1 Y7 J- k5 g x* o# F
: P' e' i& i @) V( d; ~1 Q/ y0 y! [3 y- O- Y% \) ?
* S X: S' V, T8 |
/ \( n3 ?( R# E1 ]% k6 e' K) e' ?% F% ?. b9 w5 r9 t
点评:又一次匪夷所思,这次轮到文心一言出的题目自己也做错了。这道题目是分数相乘的结果,文心一言理解成了除法。即便理解成除法,最后也不应该等于 6。不知道这个结果怎么来的,迷之尴尬。通义千问理解对了,最后是 1/8,即 0.125,这是一个确定的值,不明白为什么最后它写的是 " 约等于 " 号,不知道是因为不自信,还是因为马虎写错了?: H! O0 `% N3 O: p: K1 U
这次二者相同的地方在:都没有给出解题步骤,也没有给出解释。
% c, }: q% R! l; ?* i* n' y通义千问出的初中数学题目:# a; v" w; y& {! h F
0 V: T; h7 p1 O( P
0 r7 G( q. I7 Y4 F3 _* S5 ?
: x0 L3 G {* x C! b) E
" f R) i% [3 w; R1 f+ O& @4 J+ n. Y
点评:让文心一言回答了两次,都是 x:9,y:0,文心一言可能连正三角形是什么都不知道。这个题目通义千问回答地非常清楚,给出了完整的解题过程,结果也是对的。4 n1 M$ y# X ?: Y% ? m0 v, |
有点不死心,再次问了文心一言: s0 ?! \) [! {; R3 _
1 _7 [& X4 Q5 R( m. r
V. x5 i% [3 v1 T2 Y/ z2 p
) @" k' ]" c9 u2 [! o! Z我们发现,文心一言其实知道正三角形是什么,但是,它就是解不对题目,第三遍依然错误。 A6 G% r7 p$ v1 I( u
还是不甘心,继续跟文心一言对话,想着让它让画一个正三角形的图吧,如下:" R5 Z6 N- A: [& v4 n
* ?3 E. i) _4 C
5 F1 k( d5 a& p$ N, \# F' d
& V" s- {. {7 h n; m6 N. F
这……好吧 o ( ╥﹏╥ ) o,文生图的能力还得加油啊 ~~
) {$ p% U' c8 h049 L, a, q4 B, P2 Q1 K7 Z
写作题目
, b3 U$ n$ m+ J+ R; F+ V7 I, P/ t来看文心一言出的写作题目,双方的作答情况:! i( C/ I; c6 F" Y# C
" b; A0 |( d! S. f) W1 Y$ o2 Q% L
0 k( B7 m7 ~/ G' ]
: v3 a T* u3 S. _7 J' `- w
( I [8 J$ ~! d$ A4 u1 o
( ]$ O, ]2 q8 Z9 [. z4 s6 S点评:从题目来说,这道题让人想到央视 2012 年的采访," 你幸福吗?" 这道题目看似简单,实则有一定难度,很容易落入俗套,很难脱颖而出。
) R3 q9 P4 ^! y9 y- @再看两者的小作文,第一句话居然神同步了。从内容来看,二者结构也基本相同,均是从各个角度阐述 " 幸福 ",不过,文心一言更偏重个人层面的感受,而通义千问涉及到社会层面以及与他人的关系。整体来看,不分伯仲。大家觉得呢?
1 ^6 s$ h* r t# k/ \4 w) M来看通义千问出的作文题目,双方的作答情况:" w, d' Z# y; Q- ]$ Q B
$ p; P' j; F) ~2 `: {2 J [
5 b& F7 d/ O' p5 r: O A6 `& Q; q* \3 p3 W3 W+ T$ V) d
: k% B b: H' A3 K9 }
9 ^- b. e. S4 _, l
/ m2 [9 `7 a0 X6 c9 S6 d; }) U' y( \; i& v+ ]4 I+ P
7 F. c$ T! L, z6 f
, m; m, ~& B1 `% z8 E/ z/ u+ a; A+ I1 Z
. {* ~! c2 [2 ~' N+ [点评:从题目来看,通义千问出的这个题目非常像高考作文,很有出卷人的视角,是科技创新的方向。
`5 Y1 b2 ^# m* K对于两者的写作,文心一言对这道题目似乎有很多思考,但直接按框架写作的,有点像论文,读起来有些生硬。通义千问的这篇虽然篇幅不长,但看起来更像一篇议论文。" O5 `: x) W9 r7 |9 v
05
% Q) ~7 G0 K+ y) N5 M0 }代码生成
% j4 a3 b' v# O5 d3 E6 m来看代码生成的相关题目:
! Y. |6 D) {+ ^8 Q0 {- f2 o/ x5 R; Y+ D( G2 D& i
* N( k( I) l) f& w+ Z. d0 y3 B
- O" R/ v, B) o5 w+ X; ?
2 W/ X6 l6 F! r5 G, d, c; U# c
; C: U( r; d/ u2 W( z/ e点评:文科生表示看不懂,拉来一名程序员帮忙看了看,他表示:" 核心段是一样的,不过,文心一言没有声明变量。" 懂编程的老师们可以留言点评一下 ~~$ g3 k6 P1 z! x2 ^- x0 f" J
再来看通义千问出的这道代码生成题目,二者作答情况:
9 i( |! d" d5 Y1 d# p+ ~/ f9 R4 O7 ^' I; D/ F2 M6 F& U
( J+ j' z0 p8 H4 h) X& K: G U2 \+ H3 }* t
2 l6 K# Y5 j" r8 f& Y/ Y) Q& {1 a. n# f8 F9 r3 R: I5 j5 \
点评:同样来自程序员的评价:" 这两个对题目的理解都不一样,所以写的也不一样。文心一言的是生产随机字符串,26 个字母随意拼;通义千问的是随机的英文单词,我感觉这个更切合题目。"3 q! X6 ?2 z5 s8 x* x$ [6 T
06
7 f: I }( q: a6 u) T心理辅导) f3 [: T* T$ j6 @- I7 ^
最后是心理辅导方面的题目,文心一言出的题目,看看双方的作答:
' T" C- L7 j# U1 k% s$ L" r% k% F; p x$ L9 K/ w- M7 u
% W6 Q: w+ J2 c
$ M+ W6 }' K: Z9 ]. H1 E5 j+ A8 [0 D1 W! ~: k$ E9 C& j
' x/ }9 j4 n; U% D0 u) Z. Z
点评:从题目来看,文心一言出的这个题目比较宽泛,比如情绪有很多种,是什么样的情绪呢?文心一言并没有说明白。在作答方面,二者在心理方面的辅导大同小异,且都是列点式的回答。两个都给出了管理情绪的具体方法,比如都提到了冥想。
6 U6 ~& k @6 H' Y& s6 H) j) l- F* U最后一道题目,由通义千问提出的问题,看看双方的解答:" G Y2 T9 B3 g; N0 p0 H
2 h% W- l+ V; Z _, }/ u- M+ [
2 v6 q; J. ~( N
, W8 G$ [/ S% ^/ P3 X W H
& E1 V# u+ L- e" @/ Y( s1 U* O- T8 L8 h% ^+ B- K6 K
: d7 t C; y( | I' a& x/ i
& l, I8 r4 a8 H2 W( O$ l) {
+ L. K. J, z9 q+ F# @1 ?* E* Y% u3 ^9 h3 b2 I0 d) Q! W
点评:首先先看题目,通义千问的问题非常具体,很有针对性。再看作答,两者给出的心理解决方案都非常具体,文心一言还给出了 " 焦虑和压力 " 形成的原因。二者给出了不同的心理辅导方案,通义千问的会更多元一些。相同的是:二者都提到了学会调节情绪,还都提供了相应的理论参考。
8 `: Y; v' y: D7 l* o W074 Z$ o% h0 y0 M, X+ |. w
总结
) }+ ?7 B, N/ X) d$ u. t/ B在出题方面,通义千问像一个出题高手,针对性较强,文心一言出了 A、B 两套题,可能想提供更多的方案,但有的题目比较宽泛。
' ?& _- H% g' l1 {针对题目解答,在翻译类题目上,二者不相上下,文心一言可能略胜一筹。8 S8 q ?) k9 n
在数学类题目上,看起来通义千问更好一些,有的还给出了清晰的解题过程,文心一言还需要提升。
+ p' O3 y1 M7 N# y2 b# A在作文题目上,二者各有千秋,但都还是有机器回答的痕迹。* |' b6 C5 `; W
在代码生成题目上,都有这方面的能力,可能文心一言需要更理解题目。
- O- L9 h& Y( T! p5 @在心理辅导方面,二者都比较详尽,对学生和家长来说有一定的指导意义。
. i1 X* j6 y' v# d, C: c# k从整体作答风格来看,文心一言偏稳重,通义千问更灵活一点。3 E7 j s& p0 y/ ]1 d B
从答题速度上来看,通义千问的速度更快一些。比如先给文心一言输入问题,再给通义千问输入问题,最后先作答结束的是通义千问,文心一言似乎会有一个 " 思考 " 的过程。
2 B0 X4 ~7 m3 I0 D; m& F从多轮对话能力来看,两者都有一定的多轮对话能力,都可能会根据反复对话有所校正,文心一言可能略好点,通义千问有时候比较疯魔。
5 q: ?7 A4 X8 P7 i; ]! G" F% k文生图方面,文心一言还需要提升,差距比较大,通义千问还没有上线文生图。
' ^0 P, l3 }0 D4 k这次评测的均为学习或教育方面的问题,题目不多,或许评测有偏颇。整体而言,完全用我们目前的大模型来辅导学习,尚存距离。国内的大模型还在路上,需要给他们成长的时间。正如 ChatGPT 一样,它也经历了从胡乱解题,到逐渐靠近正确答案,尤其是 GPT-4,在专业和学术上接近人类水平。
# U @2 _2 u9 p7 Q+ E" Z- B盖茨说 "AI 聊天机器人将 18 个月内可以辅导作业 ",指的应该是国外的大模型,国内的或许还需要更长时间。
/ G! t) H" ?2 wEND
. U z, `( }7 x# o. n: Q6 v4 f* T本文作者:王上 |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|