|
|
6 g& e* y' W" A* f* e( g- I+ s+ V! _, a& D& j' x6 r& Q( Z `
国内的大模型还在路上,需要给他们成长的时间。1 ~6 q7 ]# R' t" ~" J
来源|多知网
8 t) @: ]$ l1 P4 J' a作者 |王上4 b& h- [+ I% x9 S' y, ]6 r' T
图片来源 | 言之画
% h. a `, K/ U比尔 · 盖茨上周二在圣地亚哥举行的 ASU+GSV 峰会上发表主旨演讲时表示:"AI 聊天机器人将 18 个月内,可以做到教孩子阅读,辅导家庭作业。"2 C6 i( ?" Z1 Q" [) u+ w
今年 3 月和 4 月,百度和阿里巴巴分别推出了自己的大模型。目前来看,百度的文心一言和阿里的通义千问均可以多轮对话、文本创作等。
# s1 u; w. t9 w& T% W; d# r未来,大模型将会朝着多模态 ( 文本、图像、视频、音频等 ) 继续发展,也将越来越逼近人类的智慧。
' t5 V+ \( M+ K" _' U4 D8 _在不少专家学者看来,如果大模型足够成熟,将改变教育体系的核心要素,包括教育目标、知识获取方式等。所以,这波 AI 技术的爆发非常值得教育领域关注。
/ C2 ^ z* \6 w: k {' a那么现在,各家的大模型进展到什么程度了?是否可以在学习或者教育领域直接利用呢?我们让百度的文心一言和阿里的通义千问 PK 了一下。. N/ _ g8 s! W& R
我们让文心一言和通义千问在高中英语翻译、初中数学题目、高中中文写作、代码生成、青少年心理辅导方向各出了一道题目,双方针对所有问题各自回答一遍,这样就总共是 10 道题目。
. ~' j% x$ |" {+ s: l0 u. M通过评测,我们看到了大模型在学习或教育类的问题上暂未成熟,尤其是数学这样要求精准的科目上,仍然需要继续训练。不过,我们依然看好大模型的未来,他们在教育领域的应用也是必然。3 E8 }$ ~) q( l/ b3 i! j ~1 _# K
01* i `$ q# K- R: ~! @1 ]; k
" 作为出卷人 ":题目正常、不算偏怪难
- f1 _/ Y5 W" b6 g. D) s2 ]2 D- l! L4 c* \4 W
万万没想到,在出题上双方就迥然不同。以下是双方给出的题目:
$ I- Z0 V r# B* {' g+ _) r: D" ~4 | l) x9 a' W S
8 Y1 ~; r- |! r6 J2 Q
( v% i; ~5 t5 T
# X6 l3 m E/ `! P6 Y: m9 c
3 t9 d0 W0 p C* Y点评:文心一言每道给出了 A、B 两套题,通义千问按要求给出了 5 道题。我们给了文心一言两次机会,它依然出了 "A、B 卷 ",有些看不懂 [ 挠头 ] ……我们最后从每道题中选择了一道题,除了第 4 题外,其他题目都选择了 A 题目。* n9 h* u4 _, b1 i0 ], A* L
对于这 5 道题目,通义千问看起来更灵活,也更有针对性,更像一个 " 出卷人 "。比如,第 3 题,出一道作文题目,跟通义千问的题目就非常像高考热门命题方向,是跟科技与人文相关的。从出题难度上来看,双方出的都比较偏简单。比如翻译题目,双方出的题目看起来都不像高中的英语题目。" M$ ] ^3 _ ^1 l
来看他们下面的作答情况——/ d9 n3 v$ k( j) L/ d
02+ u' ?2 n3 L' i; K
翻译题目
) M* i* ?9 k9 b7 @+ w; o8 f第一题英文翻译,文心一言的题目,是让把英文翻译成汉语:
# c" h5 t- n( ~ E0 S6 N+ X' w& r$ p0 R- V
3 s" o4 {5 t Q* U! a' F
6 a, C- `1 }) M
4 V! m8 p8 B. D+ I9 a3 e
3 Z3 g9 X* F1 a- O7 Y& S9 i: E" e
点评:这个题目两个都翻译的大同小异,通义千问的会更具体。可能因为题目是文心一言出的,所以它直接翻译成了汉语。而通义千问会问是 " 翻译成哪门语言 ",考虑得更周到一些。- k* P* ~: b: c8 Y3 ]
来看通义千问出的这道翻译题目:
* M5 W3 y8 g) X7 | ?) K6 K2 G. q3 J d- J- J/ W. J J5 V: ~ g+ t. z
4 Q9 i" J4 l1 z S5 B p8 |/ N! O; c
b. g$ t4 g) {& {3 y2 k5 ]6 w
5 N" t4 U& s% |7 W/ b点评:文心一言翻译的是 " 请问我怎么读这个词?" ,通义千问翻译的是 " 你能告诉我这个词是什么意思吗?" 文心一言的翻译更准确一些。通义千问自己出的题却没有答好,有点匪夷所思。
) t' _# o$ f- y: f. `' j* n4 w要么跟通义千问换一个问法吧,回答如下:- i% i, e" S4 @9 b2 g
/ Y1 W4 l& t3 R' y; z/ T$ g$ ?
' a* w+ s2 q! K+ o- v- j, W' m" w/ ^7 W' a
越来越离谱了。。4 T- z7 }* O2 @9 `/ b
$ I5 F; D! n& s0 |! k% V# e2 J8 J+ g
& f j4 ~$ B2 U6 i; z9 \7 ?
9 U+ y6 }8 C" y. m: r1 M/ {. r: [: \
- C: z4 u t* \2 [0 g5 J2 n通义千问多轮对话的能力堪忧……, J1 K% d$ W" v+ K
03; m# c8 E3 \2 K/ a
数学题目" O5 W E7 K6 }0 F$ f! G: Z1 I
来看初中的数学题:
4 ?6 i, } I1 H1 F, B5 f x* T
; U# {% \, ?3 ~4 n. G
9 C+ H2 L! {' o- b3 B1 q
& {* w$ z# j4 P3 t# n* ?) g$ W( C
& S2 N' e( z! {* u u8 }3 C/ d& {7 J, k3 Q" o% i$ u
点评:又一次匪夷所思,这次轮到文心一言出的题目自己也做错了。这道题目是分数相乘的结果,文心一言理解成了除法。即便理解成除法,最后也不应该等于 6。不知道这个结果怎么来的,迷之尴尬。通义千问理解对了,最后是 1/8,即 0.125,这是一个确定的值,不明白为什么最后它写的是 " 约等于 " 号,不知道是因为不自信,还是因为马虎写错了?1 I. _/ T3 d4 I& i
这次二者相同的地方在:都没有给出解题步骤,也没有给出解释。
& [" ]$ ]2 t1 { p9 H( S! z通义千问出的初中数学题目:
* H* d( ]) ?. T% A1 k6 i# X$ ~. s! |0 ?& w* G: } z: n
! X8 o6 h& K5 z+ s/ Z U2 n5 h. z& F
% o3 Q/ L0 B; e* {
; C' \* x/ g. K& b! z+ M' _4 Z
- r; C; E0 ` I D0 t# Z' q
点评:让文心一言回答了两次,都是 x:9,y:0,文心一言可能连正三角形是什么都不知道。这个题目通义千问回答地非常清楚,给出了完整的解题过程,结果也是对的。
' X: V" H* a4 Z# v$ d有点不死心,再次问了文心一言:& M' f3 m; _) l- c" G
: n9 v, M1 R, X4 R/ I0 o% f9 R! [
! M7 c% T+ ]5 a% U+ G2 t$ j& D我们发现,文心一言其实知道正三角形是什么,但是,它就是解不对题目,第三遍依然错误。5 x% z/ b1 d1 e
还是不甘心,继续跟文心一言对话,想着让它让画一个正三角形的图吧,如下:* k. x% A4 R) j( W6 d1 Q
) B4 Z4 Y4 h, P. d; J' m( S+ T6 G; w( L" s) ]" A
: W6 x8 S! d! q( i, _! }+ s) L
这……好吧 o ( ╥﹏╥ ) o,文生图的能力还得加油啊 ~~
: h/ L) A$ a2 }* i6 {0 s04
! F, G3 @+ j3 G写作题目6 Y9 q7 z- e W- h- ~
来看文心一言出的写作题目,双方的作答情况:
+ V' z" G# Q+ u4 N: l$ N; R. ?* K% X6 B
8 ~4 S) h2 ]- t! Z2 a# M
, U7 O: X3 _0 |5 {+ Y% l; a4 l& O8 O7 ?4 H z$ y; V+ w' o a
7 y0 z2 a3 N% Z# b" E x/ S点评:从题目来说,这道题让人想到央视 2012 年的采访," 你幸福吗?" 这道题目看似简单,实则有一定难度,很容易落入俗套,很难脱颖而出。
# B+ Y5 d/ G5 C1 N: J再看两者的小作文,第一句话居然神同步了。从内容来看,二者结构也基本相同,均是从各个角度阐述 " 幸福 ",不过,文心一言更偏重个人层面的感受,而通义千问涉及到社会层面以及与他人的关系。整体来看,不分伯仲。大家觉得呢?8 N1 I" V# ?8 h. | U% n1 K' h
来看通义千问出的作文题目,双方的作答情况:
; x2 v% U1 V# h* F7 _1 _: U
6 b# t8 \- W1 h8 ?+ J6 s8 J, m& x. {( E, U& U1 n. i! m
3 _3 d a- `' q8 s6 \/ r- G
; {5 ]2 P7 g1 C( }2 z0 b$ Q: b
! F7 v, I$ Q7 f0 z. J8 z3 C
0 {; t; P" P( S. ^1 J# G
9 B# j+ z& Y$ w" e t* M" w, ^9 t& x: r
/ H+ H3 R# E: z
9 |0 ?; q) p) ]8 T
* O. S2 G6 M/ U& }! ^9 V点评:从题目来看,通义千问出的这个题目非常像高考作文,很有出卷人的视角,是科技创新的方向。
+ t; k$ u- \4 Y1 `: B对于两者的写作,文心一言对这道题目似乎有很多思考,但直接按框架写作的,有点像论文,读起来有些生硬。通义千问的这篇虽然篇幅不长,但看起来更像一篇议论文。# q! E* Q+ D4 V5 h3 N, \& ~
053 {' c/ D* G- V% Y1 ]5 r6 O2 |
代码生成
) {! J. j. W ^来看代码生成的相关题目:
& r2 y1 t% V- a2 f' W P ?2 i7 D! W! V9 L* @. y( ~1 s" k
0 O" K4 W; {, @1 J
& d8 {1 g4 c7 e" }! u) e, k1 S; @9 P' s" q& [
6 w/ V* O2 @4 i' f; s* i7 n' y
点评:文科生表示看不懂,拉来一名程序员帮忙看了看,他表示:" 核心段是一样的,不过,文心一言没有声明变量。" 懂编程的老师们可以留言点评一下 ~~
& g- Q: J& z9 ^" N再来看通义千问出的这道代码生成题目,二者作答情况:
: d9 S5 _1 x* p8 W2 h8 D
) {; ^" x2 C8 }4 {0 t* \8 ?; j) E
) t. h0 z3 M0 R7 W2 n4 |- R: ?+ o K: i8 B
. o: }" F1 z( Z, M: M. B1 \" d
) B/ m% i5 j! ~9 m* [
点评:同样来自程序员的评价:" 这两个对题目的理解都不一样,所以写的也不一样。文心一言的是生产随机字符串,26 个字母随意拼;通义千问的是随机的英文单词,我感觉这个更切合题目。". s; L& V+ H* w: s
069 _. N- w- C6 ~
心理辅导
4 c2 _8 S4 [* [- {8 y O, ]; s8 \/ J6 l: o最后是心理辅导方面的题目,文心一言出的题目,看看双方的作答:/ o( Y: L, X E) G$ e( I' E! J& g
+ T2 s" ^" h" c, b9 a
+ p" b6 |+ t8 ^: F% r
* Z2 t+ P0 |/ J
) Z/ I% G7 @$ c) b. X! v
% E* ` L' H5 B; P
点评:从题目来看,文心一言出的这个题目比较宽泛,比如情绪有很多种,是什么样的情绪呢?文心一言并没有说明白。在作答方面,二者在心理方面的辅导大同小异,且都是列点式的回答。两个都给出了管理情绪的具体方法,比如都提到了冥想。/ N6 d) w% D) X9 n
最后一道题目,由通义千问提出的问题,看看双方的解答:4 k2 Z `) F1 v/ C# ?& h+ i
! F( ~$ \5 S8 d& B" |9 m
( e4 |9 a m9 f" c3 p1 o
, m& V$ O) i9 ]6 T/ x! B C" Q
( v! ^ T p: B, y3 R( H4 E( q# d' s9 s! }; U
. [& p5 P6 f3 T9 E$ b9 [) D9 g) m
% n1 A) ?+ V3 {2 ^0 A4 H
8 r+ E: a! _" x" ]( H! m* i
) Y4 {& v& f. T& v( @9 a点评:首先先看题目,通义千问的问题非常具体,很有针对性。再看作答,两者给出的心理解决方案都非常具体,文心一言还给出了 " 焦虑和压力 " 形成的原因。二者给出了不同的心理辅导方案,通义千问的会更多元一些。相同的是:二者都提到了学会调节情绪,还都提供了相应的理论参考。: W5 L; v8 x7 t- c7 f
07' `$ l/ S, {0 _% x
总结" ^; v8 `/ i3 M9 K" w
在出题方面,通义千问像一个出题高手,针对性较强,文心一言出了 A、B 两套题,可能想提供更多的方案,但有的题目比较宽泛。! B; I& l) E$ w/ h
针对题目解答,在翻译类题目上,二者不相上下,文心一言可能略胜一筹。9 O, X# T7 a! |6 d# |: M2 Z
在数学类题目上,看起来通义千问更好一些,有的还给出了清晰的解题过程,文心一言还需要提升。
$ } b6 y/ X* d在作文题目上,二者各有千秋,但都还是有机器回答的痕迹。* ^: ^) c4 I2 x8 b# o, a
在代码生成题目上,都有这方面的能力,可能文心一言需要更理解题目。/ w$ \8 Y( `' V, _% G4 o
在心理辅导方面,二者都比较详尽,对学生和家长来说有一定的指导意义。
. D* z3 N% w% I2 P! o从整体作答风格来看,文心一言偏稳重,通义千问更灵活一点。
6 e. v0 T# ?1 |$ y! W D从答题速度上来看,通义千问的速度更快一些。比如先给文心一言输入问题,再给通义千问输入问题,最后先作答结束的是通义千问,文心一言似乎会有一个 " 思考 " 的过程。8 S3 t/ A% G8 h t' b
从多轮对话能力来看,两者都有一定的多轮对话能力,都可能会根据反复对话有所校正,文心一言可能略好点,通义千问有时候比较疯魔。9 T+ J- t1 s1 p! L) j0 x
文生图方面,文心一言还需要提升,差距比较大,通义千问还没有上线文生图。* e, l+ a& }/ h7 x3 ?
这次评测的均为学习或教育方面的问题,题目不多,或许评测有偏颇。整体而言,完全用我们目前的大模型来辅导学习,尚存距离。国内的大模型还在路上,需要给他们成长的时间。正如 ChatGPT 一样,它也经历了从胡乱解题,到逐渐靠近正确答案,尤其是 GPT-4,在专业和学术上接近人类水平。
2 k% c% G! m$ V/ U5 g4 D& b7 G盖茨说 "AI 聊天机器人将 18 个月内可以辅导作业 ",指的应该是国外的大模型,国内的或许还需要更长时间。# R# {" V: [6 h! A; L1 @/ U
END" f% e: V% t7 `% z# }, J- u. B2 L- A
本文作者:王上 |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|