|
|
1 }) T3 _( p3 |' k. \& Y: t
7 {8 B9 a( K* L( P国内的大模型还在路上,需要给他们成长的时间。
$ F v4 f* C( L6 @" f来源|多知网% `: m$ Q0 Q# V; H; _* ?, F# K7 t/ k
作者 |王上 {8 V1 |( y% ]
图片来源 | 言之画' m# f; K' s0 a
比尔 · 盖茨上周二在圣地亚哥举行的 ASU+GSV 峰会上发表主旨演讲时表示:"AI 聊天机器人将 18 个月内,可以做到教孩子阅读,辅导家庭作业。"
1 w5 f, `2 F. d7 O {今年 3 月和 4 月,百度和阿里巴巴分别推出了自己的大模型。目前来看,百度的文心一言和阿里的通义千问均可以多轮对话、文本创作等。
2 R0 o: E, |+ H. N未来,大模型将会朝着多模态 ( 文本、图像、视频、音频等 ) 继续发展,也将越来越逼近人类的智慧。
0 h% z. c# {; M/ t3 U在不少专家学者看来,如果大模型足够成熟,将改变教育体系的核心要素,包括教育目标、知识获取方式等。所以,这波 AI 技术的爆发非常值得教育领域关注。1 H4 `8 V7 y4 V7 I/ R" N: O2 j* v/ P
那么现在,各家的大模型进展到什么程度了?是否可以在学习或者教育领域直接利用呢?我们让百度的文心一言和阿里的通义千问 PK 了一下。
" g& k" r# Z: m+ O' m3 W$ Q9 Q5 q8 t" c我们让文心一言和通义千问在高中英语翻译、初中数学题目、高中中文写作、代码生成、青少年心理辅导方向各出了一道题目,双方针对所有问题各自回答一遍,这样就总共是 10 道题目。: `& T9 ]: F/ r$ k1 ?% Q5 o
通过评测,我们看到了大模型在学习或教育类的问题上暂未成熟,尤其是数学这样要求精准的科目上,仍然需要继续训练。不过,我们依然看好大模型的未来,他们在教育领域的应用也是必然。& `& E, Y/ Y6 W# H, s( \9 N! N: G
01
( S6 K# c+ d: r " 作为出卷人 ":题目正常、不算偏怪难
: o( y o! G! M8 C }- Z5 i$ h/ J, k; b
万万没想到,在出题上双方就迥然不同。以下是双方给出的题目:
5 H+ Q& k7 Q0 l! x
- f* [7 ]' m$ o. p% Q
# t2 z" {" o9 c& Q% L2 ?* ~
) t- |4 O! g o7 m5 f+ s( ?
6 K- |6 p2 w x4 w3 }4 C
( u4 b$ d+ o- q r, K点评:文心一言每道给出了 A、B 两套题,通义千问按要求给出了 5 道题。我们给了文心一言两次机会,它依然出了 "A、B 卷 ",有些看不懂 [ 挠头 ] ……我们最后从每道题中选择了一道题,除了第 4 题外,其他题目都选择了 A 题目。
4 r) q/ ^, G5 P" @对于这 5 道题目,通义千问看起来更灵活,也更有针对性,更像一个 " 出卷人 "。比如,第 3 题,出一道作文题目,跟通义千问的题目就非常像高考热门命题方向,是跟科技与人文相关的。从出题难度上来看,双方出的都比较偏简单。比如翻译题目,双方出的题目看起来都不像高中的英语题目。, u, _8 e& P s% G! E
来看他们下面的作答情况——
8 z9 { ~# b9 ?, s02
1 K. h# z- u0 i3 ?翻译题目1 F' Y t. G; q& K4 }: W% N
第一题英文翻译,文心一言的题目,是让把英文翻译成汉语:
1 d3 T5 W' Z3 M* h0 j4 U; Q9 w* e8 c$ I
, |; y/ |) `7 d {- o9 b) `. L- i
3 A: d" H q6 V2 s0 ~7 X
- ?% n4 ~( H* ^2 y4 O* s" T4 k' I; w
点评:这个题目两个都翻译的大同小异,通义千问的会更具体。可能因为题目是文心一言出的,所以它直接翻译成了汉语。而通义千问会问是 " 翻译成哪门语言 ",考虑得更周到一些。+ x3 x! h! H. t. N; j+ k) e
来看通义千问出的这道翻译题目:( N7 K2 ~$ e- B
. b" w! b2 g- `: Q
: ?/ X3 h) K( N: }, c2 u7 I9 F( v0 @; i
0 l6 N5 i' F- ]9 N
m2 X n- y2 t' [5 j: [* q
点评:文心一言翻译的是 " 请问我怎么读这个词?" ,通义千问翻译的是 " 你能告诉我这个词是什么意思吗?" 文心一言的翻译更准确一些。通义千问自己出的题却没有答好,有点匪夷所思。5 ?& E, u6 ]+ n( b
要么跟通义千问换一个问法吧,回答如下:$ j0 S5 a. V" N
- J/ W3 L. ?6 H& {7 P1 g- E- V
+ w7 U6 z+ t6 V# ^) h7 p
. b z4 X+ n/ z* `0 m越来越离谱了。。
1 o2 G$ l7 w5 Q; {- C8 B. ?; m2 I9 R2 g
1 d% L" ?* Q1 L: y1 M4 X
* t# \ i: J1 b( W( i
& Y- {. `8 {0 |1 y+ H
: ?1 v1 H5 a' w W& ]! f) G" J1 s通义千问多轮对话的能力堪忧……2 F0 ^3 i# f2 r8 x% Q; w# {
03
/ X Q- Z2 j. e6 r8 v0 \数学题目
2 ^5 j$ ?( T8 g/ i1 T6 e% _% D3 H O来看初中的数学题:
" K5 x1 Q6 r: Z+ R+ Z
8 K, P0 n! E' V! x8 j# d _
$ c* d0 S n+ y- r6 C% W `9 v; J% z8 N; R- v7 ~$ [
( z* I5 O1 F) ~; R
$ e" W: e1 E& T
点评:又一次匪夷所思,这次轮到文心一言出的题目自己也做错了。这道题目是分数相乘的结果,文心一言理解成了除法。即便理解成除法,最后也不应该等于 6。不知道这个结果怎么来的,迷之尴尬。通义千问理解对了,最后是 1/8,即 0.125,这是一个确定的值,不明白为什么最后它写的是 " 约等于 " 号,不知道是因为不自信,还是因为马虎写错了?# N; \+ X* i+ Y8 T: T( M
这次二者相同的地方在:都没有给出解题步骤,也没有给出解释。
8 s' ]+ J7 I4 j通义千问出的初中数学题目:
& e+ `, i, a" K4 G% f- m( l0 @4 E, y
% R! Q6 u; p) O/ w, F% T Y
6 T. q8 r! X1 _" W
8 d6 X1 L# A$ G, r
+ T& J; \' ?. p+ o. O. n, A1 V, {1 S$ D. m1 y! p5 d
点评:让文心一言回答了两次,都是 x:9,y:0,文心一言可能连正三角形是什么都不知道。这个题目通义千问回答地非常清楚,给出了完整的解题过程,结果也是对的。7 d7 `' N5 Q) L2 C4 d5 X- t) k
有点不死心,再次问了文心一言:
4 E; ^: ^3 f4 u1 ^( x4 e1 p$ ^. m' d; Q. x) H2 e6 W
`8 {6 a, Q h( J3 v
/ Y ~5 y9 B& m/ s5 Y/ u& {
我们发现,文心一言其实知道正三角形是什么,但是,它就是解不对题目,第三遍依然错误。8 ?) |7 C1 G) J1 m
还是不甘心,继续跟文心一言对话,想着让它让画一个正三角形的图吧,如下:9 s% M1 j9 b! [
- c( ]- g% T0 v( Q5 n1 m1 S: c" _1 l) s, U# W
7 S3 e$ q; {2 V# ?+ |+ J- Q3 E
这……好吧 o ( ╥﹏╥ ) o,文生图的能力还得加油啊 ~~0 v+ _( R! s! Q& F
04
: S( @2 V# a6 p& d+ ?写作题目
5 D2 D$ ^" ~) e# K6 w& [6 z+ m来看文心一言出的写作题目,双方的作答情况:3 S9 H# T& Y# `* L) b; {
2 P: m: R+ f; O0 ]4 G8 K/ P' R. [6 p
3 j2 q# z |! {% m5 Z
& r, Z6 w) g! A6 ?6 @9 P% z3 U* D/ j7 A4 d
4 M8 D2 d2 L& T0 Y+ T$ J$ F点评:从题目来说,这道题让人想到央视 2012 年的采访," 你幸福吗?" 这道题目看似简单,实则有一定难度,很容易落入俗套,很难脱颖而出。& N ]' @- Z2 e3 g# g
再看两者的小作文,第一句话居然神同步了。从内容来看,二者结构也基本相同,均是从各个角度阐述 " 幸福 ",不过,文心一言更偏重个人层面的感受,而通义千问涉及到社会层面以及与他人的关系。整体来看,不分伯仲。大家觉得呢?
* o# T* u- q6 S8 f4 ^来看通义千问出的作文题目,双方的作答情况:1 S @4 A5 k( T* ~. w3 X3 n2 o: m
/ ~4 C' F( ?& j1 O: T; m
: l) R* v2 k) l6 W; ~, x( {
4 E' Q5 D$ v, p7 _% ~( P# U9 V1 K( y! L" o3 U, f* H
, h. ~; p+ a: C6 J* w$ M8 l5 Y. c7 i3 ^# @4 C
7 t, ?6 }& R' B9 N. G! `: E2 S0 V2 `
/ w- m+ w7 y4 I" A# k* Q$ t3 T8 t2 {
6 \; ^ ^2 d7 R4 i% r" t. |) g. y* e
, k0 ?' V6 h% I' D; n
, S$ E5 v+ d! K7 x; c" @8 U8 \! ?4 j, g点评:从题目来看,通义千问出的这个题目非常像高考作文,很有出卷人的视角,是科技创新的方向。
& x3 Y) J7 e4 W& z# e对于两者的写作,文心一言对这道题目似乎有很多思考,但直接按框架写作的,有点像论文,读起来有些生硬。通义千问的这篇虽然篇幅不长,但看起来更像一篇议论文。7 k K2 K6 S2 @, H5 \
05
9 U8 N3 ?$ \* G, b代码生成
3 s& i( W# s3 I- X; K" `7 m来看代码生成的相关题目:
- {$ E$ p: ]& V- u ~
]4 L9 B' f1 {& A( i; Q% R# v
9 O: [) S* n* Q1 p& r/ {; H7 m# n. p8 p
7 M: K) m! t K
* J, w v3 R/ ~% `0 h7 v" Q1 \5 K点评:文科生表示看不懂,拉来一名程序员帮忙看了看,他表示:" 核心段是一样的,不过,文心一言没有声明变量。" 懂编程的老师们可以留言点评一下 ~~
5 q, \: O* T7 ~% [3 ~# C再来看通义千问出的这道代码生成题目,二者作答情况:5 }/ @) J9 b; H/ f
# [7 d( s; b4 P/ X! c3 g6 ]
6 ]& m, M! |4 E( `
1 w& {4 ]: d- V* }/ b3 N% C- S$ I% d; g1 E* Z% z
h" H9 Q( D, N) g( F
点评:同样来自程序员的评价:" 这两个对题目的理解都不一样,所以写的也不一样。文心一言的是生产随机字符串,26 个字母随意拼;通义千问的是随机的英文单词,我感觉这个更切合题目。"
; U% W4 B8 z8 p$ Y7 k! }061 [; Q, r9 K+ Q2 H6 c
心理辅导( C8 ?" q* i$ T! d4 Z; E& X) P( e
最后是心理辅导方面的题目,文心一言出的题目,看看双方的作答:
8 ?" L4 p1 A/ A
3 N* X' ]8 {2 a. Q0 z$ |+ y" [# |5 K8 Z& [ a
' _9 {, [) z0 Z0 v3 g
/ G) i6 U6 ]. i. y/ F3 A* j- l2 S5 L
点评:从题目来看,文心一言出的这个题目比较宽泛,比如情绪有很多种,是什么样的情绪呢?文心一言并没有说明白。在作答方面,二者在心理方面的辅导大同小异,且都是列点式的回答。两个都给出了管理情绪的具体方法,比如都提到了冥想。, ^* W; i& e2 N% d$ O2 N# `8 w
最后一道题目,由通义千问提出的问题,看看双方的解答:5 G+ C) E6 F7 H& s
9 ?! @. }8 x5 |; M+ O* u
/ O7 h- {+ w# b# Q' W, F8 e3 l
8 ^9 w6 U3 |0 _$ g' }7 L2 S8 f# f3 q* p+ r( Y1 k4 x1 u9 t- y
- J9 E" ` ]1 g6 r: s; R) g6 t
! U+ l3 _4 c3 Q# H3 }( N: a
2 e" I& y' F9 q# s, V& T: H, i" ^4 a0 L
* s" o" r, b2 K: C, H" H* B9 v' K4 k$ t
点评:首先先看题目,通义千问的问题非常具体,很有针对性。再看作答,两者给出的心理解决方案都非常具体,文心一言还给出了 " 焦虑和压力 " 形成的原因。二者给出了不同的心理辅导方案,通义千问的会更多元一些。相同的是:二者都提到了学会调节情绪,还都提供了相应的理论参考。
B& J8 G w. f% `$ E+ Y07
" k: j/ c% h ?& @- ~0 F: i总结
/ X9 T, \2 ?3 Y. M在出题方面,通义千问像一个出题高手,针对性较强,文心一言出了 A、B 两套题,可能想提供更多的方案,但有的题目比较宽泛。* n4 }6 `. k# G4 B6 g8 w
针对题目解答,在翻译类题目上,二者不相上下,文心一言可能略胜一筹。, h& t6 o* c1 a
在数学类题目上,看起来通义千问更好一些,有的还给出了清晰的解题过程,文心一言还需要提升。* d: f. d! l; \2 ~& T" b* ?
在作文题目上,二者各有千秋,但都还是有机器回答的痕迹。
/ D" C4 I( W) H. E在代码生成题目上,都有这方面的能力,可能文心一言需要更理解题目。8 M" C O' f8 z+ M* ?* N& ^. t
在心理辅导方面,二者都比较详尽,对学生和家长来说有一定的指导意义。- b' C5 g8 O h- @. ]
从整体作答风格来看,文心一言偏稳重,通义千问更灵活一点。5 y/ B6 F7 \& V! A( ^
从答题速度上来看,通义千问的速度更快一些。比如先给文心一言输入问题,再给通义千问输入问题,最后先作答结束的是通义千问,文心一言似乎会有一个 " 思考 " 的过程。
# H. r2 o) E" {; e从多轮对话能力来看,两者都有一定的多轮对话能力,都可能会根据反复对话有所校正,文心一言可能略好点,通义千问有时候比较疯魔。
- H0 }4 A' ^4 J2 g文生图方面,文心一言还需要提升,差距比较大,通义千问还没有上线文生图。# o2 v, N+ q9 a1 F
这次评测的均为学习或教育方面的问题,题目不多,或许评测有偏颇。整体而言,完全用我们目前的大模型来辅导学习,尚存距离。国内的大模型还在路上,需要给他们成长的时间。正如 ChatGPT 一样,它也经历了从胡乱解题,到逐渐靠近正确答案,尤其是 GPT-4,在专业和学术上接近人类水平。* n8 e/ G8 G# [
盖茨说 "AI 聊天机器人将 18 个月内可以辅导作业 ",指的应该是国外的大模型,国内的或许还需要更长时间。
: {0 P* Q, ?0 X% ?2 HEND
; C+ D) L# h: [本文作者:王上 |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|