|
|
- |$ o& O S; d) w$ |
q: w" x. U8 |9 Z6 U% b# u
国内的大模型还在路上,需要给他们成长的时间。
9 S u2 e1 _0 I! \" T+ [ s来源|多知网
0 b9 M* s+ w( ^" K* p作者 |王上! T: X- T3 l" n3 ]: n, W* b
图片来源 | 言之画* I' H7 ^% y; O3 h1 C m+ ]
比尔 · 盖茨上周二在圣地亚哥举行的 ASU+GSV 峰会上发表主旨演讲时表示:"AI 聊天机器人将 18 个月内,可以做到教孩子阅读,辅导家庭作业。"
O- e6 D5 E C+ C/ B' F今年 3 月和 4 月,百度和阿里巴巴分别推出了自己的大模型。目前来看,百度的文心一言和阿里的通义千问均可以多轮对话、文本创作等。1 b+ C+ x9 Z I3 [
未来,大模型将会朝着多模态 ( 文本、图像、视频、音频等 ) 继续发展,也将越来越逼近人类的智慧。: a+ u K( V; F) B( y3 j, O& t
在不少专家学者看来,如果大模型足够成熟,将改变教育体系的核心要素,包括教育目标、知识获取方式等。所以,这波 AI 技术的爆发非常值得教育领域关注。
" g! D* p. r( C" ^# H6 o那么现在,各家的大模型进展到什么程度了?是否可以在学习或者教育领域直接利用呢?我们让百度的文心一言和阿里的通义千问 PK 了一下。
- |* e {& E; m4 Z- Z我们让文心一言和通义千问在高中英语翻译、初中数学题目、高中中文写作、代码生成、青少年心理辅导方向各出了一道题目,双方针对所有问题各自回答一遍,这样就总共是 10 道题目。
$ N6 q/ ?* |4 I通过评测,我们看到了大模型在学习或教育类的问题上暂未成熟,尤其是数学这样要求精准的科目上,仍然需要继续训练。不过,我们依然看好大模型的未来,他们在教育领域的应用也是必然。
7 E3 W$ T2 ~3 `4 G01
7 g& l2 A8 u; `6 N7 z/ I3 o " 作为出卷人 ":题目正常、不算偏怪难
% X( X3 Y. z/ v/ V) G3 j5 X4 C+ n' x( O! o% i' s2 V
万万没想到,在出题上双方就迥然不同。以下是双方给出的题目:
3 P' @; B5 {( A5 f1 |+ P4 X% m7 t! n3 x. e
* q- M6 j- [ }; e
% X D' I5 X5 y/ K2 Q9 z+ g* M, @6 j/ G
# R! ~1 T" y! i! o
点评:文心一言每道给出了 A、B 两套题,通义千问按要求给出了 5 道题。我们给了文心一言两次机会,它依然出了 "A、B 卷 ",有些看不懂 [ 挠头 ] ……我们最后从每道题中选择了一道题,除了第 4 题外,其他题目都选择了 A 题目。
/ h$ B6 [! F. U6 ^8 I7 x对于这 5 道题目,通义千问看起来更灵活,也更有针对性,更像一个 " 出卷人 "。比如,第 3 题,出一道作文题目,跟通义千问的题目就非常像高考热门命题方向,是跟科技与人文相关的。从出题难度上来看,双方出的都比较偏简单。比如翻译题目,双方出的题目看起来都不像高中的英语题目。
1 F7 ]1 S; B. ^; z来看他们下面的作答情况——. E i5 x4 ^: x# k
02# A, e/ e" K7 _( S& G4 i
翻译题目
" m2 U& w# }: T9 C7 m8 Q! L第一题英文翻译,文心一言的题目,是让把英文翻译成汉语:
4 v4 P7 Z% ^4 K4 H+ T8 r& }. Q, R% k& G
& s, ~- r/ D( d( ]$ x# }
. C% k! @4 m ~! ~
* N) g( a& a* n. h* p1 l* U
! r- r& t$ _" d2 D* _
点评:这个题目两个都翻译的大同小异,通义千问的会更具体。可能因为题目是文心一言出的,所以它直接翻译成了汉语。而通义千问会问是 " 翻译成哪门语言 ",考虑得更周到一些。
0 b( z: [# {% J0 z% g来看通义千问出的这道翻译题目:
! K" P: v& M+ e. a$ Q- [& q' a
8 H$ c, u4 Q7 y9 A) _1 J, `& D1 D0 p) l/ X/ Y% a
$ ]" d- p$ `% b$ q- v' ~7 }! v! F
7 P4 S8 L- c$ `" I! E( c u- l5 t点评:文心一言翻译的是 " 请问我怎么读这个词?" ,通义千问翻译的是 " 你能告诉我这个词是什么意思吗?" 文心一言的翻译更准确一些。通义千问自己出的题却没有答好,有点匪夷所思。
/ h5 M7 z; z8 {3 \! K要么跟通义千问换一个问法吧,回答如下:; ~# o6 O2 k. W$ Z
0 l) H5 e9 k' H3 t* Q# Q1 } M
$ r& f! l/ N1 ^" {( L$ i
0 R, M. P& Y3 y5 }' W3 T- k5 b
越来越离谱了。。% y# w1 F. T8 l2 V/ X! E
: [) |$ i) F7 }' Z3 t; D* ^& m" P( r. a/ i# R7 C) ]8 M
+ b s! t; F5 q' F; y: u
- J; [8 m" X2 d4 h
3 @* Q/ W3 y8 _2 V- v7 ?通义千问多轮对话的能力堪忧……, u! {( M5 A+ r' O) Y, Q+ i
03- e/ T/ K- f: A, b1 M4 f
数学题目
# X6 \! A# m- O% K8 X9 y1 J来看初中的数学题:! }3 A% l s, B* D5 J
3 W6 @( N- y" Q! {, j+ ~% ?8 W9 O' \6 S
; m9 }$ U" z* Q6 J {. s% E/ Q2 L. O
2 E3 ]+ A4 g" V2 }3 O4 U/ t |. o) _$ i* `5 m6 B
点评:又一次匪夷所思,这次轮到文心一言出的题目自己也做错了。这道题目是分数相乘的结果,文心一言理解成了除法。即便理解成除法,最后也不应该等于 6。不知道这个结果怎么来的,迷之尴尬。通义千问理解对了,最后是 1/8,即 0.125,这是一个确定的值,不明白为什么最后它写的是 " 约等于 " 号,不知道是因为不自信,还是因为马虎写错了?
2 j& l2 ~! ^# J, W6 r! |这次二者相同的地方在:都没有给出解题步骤,也没有给出解释。
) i# ^3 E% P( u4 c1 @! r通义千问出的初中数学题目:
7 ?) {& ^; _: {, T
7 \* J$ h% `; ^9 Z7 P" y
" h) \: V& ]* y; g: q& q+ g1 }# Q- c8 ?8 d6 Q. n
2 s. t L$ y9 Q m9 O. _; F
! K; c0 q! k4 H4 s$ b9 W2 B; r! R7 p% Y% q点评:让文心一言回答了两次,都是 x:9,y:0,文心一言可能连正三角形是什么都不知道。这个题目通义千问回答地非常清楚,给出了完整的解题过程,结果也是对的。& f& j2 B2 T* L) n; b
有点不死心,再次问了文心一言:$ M4 C) V5 h% a0 T9 N" \
0 ~( b3 o& @: H, {5 b6 `
4 J) K h5 ^4 z7 G4 b d% X" X
5 R& A+ f5 v& P) d3 l/ J8 D我们发现,文心一言其实知道正三角形是什么,但是,它就是解不对题目,第三遍依然错误。( J% O7 t% L1 m
还是不甘心,继续跟文心一言对话,想着让它让画一个正三角形的图吧,如下:
& E9 J5 A% C$ q0 D0 _8 w5 w# p- c4 p. `- G( [( F
( x/ [2 Q2 p) v/ g; y4 k5 l; }& f! i1 I; x1 r
这……好吧 o ( ╥﹏╥ ) o,文生图的能力还得加油啊 ~~! s3 w/ l/ C$ O! P
04
: I/ T. H. R+ \! y写作题目* o {* K) c7 H
来看文心一言出的写作题目,双方的作答情况:! p( U9 T4 J- ~3 I$ g9 H5 |
/ P9 J- v, k6 B! r
6 U F+ Q" {4 V; n0 A+ Q
1 q( X) p! z6 E
9 b1 x H% V; {
, l* \: N! s; O/ `# o点评:从题目来说,这道题让人想到央视 2012 年的采访," 你幸福吗?" 这道题目看似简单,实则有一定难度,很容易落入俗套,很难脱颖而出。" X+ u& U; I9 ^9 r9 j- f* Y, H
再看两者的小作文,第一句话居然神同步了。从内容来看,二者结构也基本相同,均是从各个角度阐述 " 幸福 ",不过,文心一言更偏重个人层面的感受,而通义千问涉及到社会层面以及与他人的关系。整体来看,不分伯仲。大家觉得呢?
# K7 D( C3 K; r5 C; ^. | b' w6 {来看通义千问出的作文题目,双方的作答情况:9 r: z7 V8 \& v0 v* e) b
3 o. u1 I( y) H7 [1 K l
: D8 }* `3 K, ^$ P. u! ~1 t* d
4 ^7 h5 i1 o$ w4 y! `
4 J: R& T- w# V% G, i; x) X# h* ^0 T+ P7 n* ~ v
$ P5 v! _2 h) r& n- B" E3 g, e# L. c
6 r: }; v8 h2 D, q [, w0 y
$ B. I: J1 E( @4 ~/ W4 g$ U
3 Z7 @2 _7 K. \# }: C) d
点评:从题目来看,通义千问出的这个题目非常像高考作文,很有出卷人的视角,是科技创新的方向。
' v9 N# b" g) m1 a- G对于两者的写作,文心一言对这道题目似乎有很多思考,但直接按框架写作的,有点像论文,读起来有些生硬。通义千问的这篇虽然篇幅不长,但看起来更像一篇议论文。
5 l9 m& \/ q" k7 _/ W2 ~" f) B$ B05
1 w- |9 [. Q' j! x2 X代码生成
/ z* D! q+ P1 m; K/ e2 l来看代码生成的相关题目:0 _+ z/ f- g0 j, c
. Q0 {$ H/ E2 x. ?6 t+ F9 e8 x/ p7 U/ G; g& i- R
8 F+ [6 \5 g) ?! S1 q9 w. k9 Y
! U; i! Z: y1 h5 o' A/ h1 b
. p# t/ X* s7 S( ^( {3 a点评:文科生表示看不懂,拉来一名程序员帮忙看了看,他表示:" 核心段是一样的,不过,文心一言没有声明变量。" 懂编程的老师们可以留言点评一下 ~~
- p) ?6 { Y+ H0 B h2 T再来看通义千问出的这道代码生成题目,二者作答情况:
5 J5 O0 d5 O8 ^$ q% T" ?1 T( }1 C( O& O% }7 n6 ]( r
# f: y6 K0 g# ^" u1 p; D) z7 d& S2 Z; K( w
: z/ V, Q% J: `; ?6 D* G6 R0 f
* S9 Z% m2 J; ~0 S9 O) n点评:同样来自程序员的评价:" 这两个对题目的理解都不一样,所以写的也不一样。文心一言的是生产随机字符串,26 个字母随意拼;通义千问的是随机的英文单词,我感觉这个更切合题目。"
4 y$ t |8 y. k1 i7 I% C* _06
* h2 U7 o% A. T心理辅导 Y H0 ]7 e, l% D W( C% H8 i+ J
最后是心理辅导方面的题目,文心一言出的题目,看看双方的作答:* P+ R! X) G# [% S g
" ~9 u) G0 j3 u9 k) k% I
, y) Q0 v& n. ?3 I" H( ?) X" k# r4 c
$ _3 J1 }9 x( J* c9 J' b/ p0 L
( r4 y [; p2 N8 H( s点评:从题目来看,文心一言出的这个题目比较宽泛,比如情绪有很多种,是什么样的情绪呢?文心一言并没有说明白。在作答方面,二者在心理方面的辅导大同小异,且都是列点式的回答。两个都给出了管理情绪的具体方法,比如都提到了冥想。0 A9 R1 g) L3 Y+ l3 T; n6 [/ R/ @
最后一道题目,由通义千问提出的问题,看看双方的解答:: j0 Z" Z. G( h0 v! J1 s, K
/ j" M$ x: r1 {9 |# N3 Q/ I
9 ]; m0 C6 ~" C9 v: K3 {
; p+ O! Z7 D% F" j% V3 p+ |; a
4 [6 Z# A! o" |4 i' ]* z2 k
1 M- e* W5 _- V/ U7 N0 x! \
& E5 V O* o8 h+ H2 b3 T4 L9 l& Q
1 @9 V" c( S! C0 p& P7 v1 B' Z5 x% E( m# K; E' f7 n
3 P; `( q% B0 W& C+ c点评:首先先看题目,通义千问的问题非常具体,很有针对性。再看作答,两者给出的心理解决方案都非常具体,文心一言还给出了 " 焦虑和压力 " 形成的原因。二者给出了不同的心理辅导方案,通义千问的会更多元一些。相同的是:二者都提到了学会调节情绪,还都提供了相应的理论参考。" d, |; Q- y( Q
07
! z* L% W. \" l9 {, X# J总结
V4 P6 |# G, Y/ [* S在出题方面,通义千问像一个出题高手,针对性较强,文心一言出了 A、B 两套题,可能想提供更多的方案,但有的题目比较宽泛。, i$ ~% K& ^/ p+ y
针对题目解答,在翻译类题目上,二者不相上下,文心一言可能略胜一筹。
5 K2 i& d/ e+ G0 @, v/ }在数学类题目上,看起来通义千问更好一些,有的还给出了清晰的解题过程,文心一言还需要提升。0 Q$ X! R4 b! n. J/ h
在作文题目上,二者各有千秋,但都还是有机器回答的痕迹。% R0 s& J( k! I8 a1 Y
在代码生成题目上,都有这方面的能力,可能文心一言需要更理解题目。9 T( U7 h) r; \
在心理辅导方面,二者都比较详尽,对学生和家长来说有一定的指导意义。
: u- P/ @# Q7 X6 U从整体作答风格来看,文心一言偏稳重,通义千问更灵活一点。5 d% Q( W7 Y) b/ \$ N
从答题速度上来看,通义千问的速度更快一些。比如先给文心一言输入问题,再给通义千问输入问题,最后先作答结束的是通义千问,文心一言似乎会有一个 " 思考 " 的过程。
' Y" P# V* E5 k2 A从多轮对话能力来看,两者都有一定的多轮对话能力,都可能会根据反复对话有所校正,文心一言可能略好点,通义千问有时候比较疯魔。) L9 Z3 G! l/ s+ q2 z
文生图方面,文心一言还需要提升,差距比较大,通义千问还没有上线文生图。
# C3 N( E) \5 |( s1 e+ s这次评测的均为学习或教育方面的问题,题目不多,或许评测有偏颇。整体而言,完全用我们目前的大模型来辅导学习,尚存距离。国内的大模型还在路上,需要给他们成长的时间。正如 ChatGPT 一样,它也经历了从胡乱解题,到逐渐靠近正确答案,尤其是 GPT-4,在专业和学术上接近人类水平。
6 k# X, {# B1 O% l7 @6 {9 J( O盖茨说 "AI 聊天机器人将 18 个月内可以辅导作业 ",指的应该是国外的大模型,国内的或许还需要更长时间。
. H, x/ W( E0 ZEND
' ?2 R5 }4 p: a本文作者:王上 |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|