|
|
: s k* A5 K [ d! W& f( q8 ^, e8 @6 y& t+ D8 J3 e% z
国内的大模型还在路上,需要给他们成长的时间。
# _% V/ b4 F4 W1 M- ]4 {" A2 w8 @来源|多知网
2 z7 J' G) Y0 m作者 |王上) L/ C$ E$ R$ _. t3 h
图片来源 | 言之画
1 Z% C: a, P r/ f9 R比尔 · 盖茨上周二在圣地亚哥举行的 ASU+GSV 峰会上发表主旨演讲时表示:"AI 聊天机器人将 18 个月内,可以做到教孩子阅读,辅导家庭作业。"
$ `; B* Q" y4 q7 ? i5 X% c今年 3 月和 4 月,百度和阿里巴巴分别推出了自己的大模型。目前来看,百度的文心一言和阿里的通义千问均可以多轮对话、文本创作等。
4 P" t- W4 @2 K未来,大模型将会朝着多模态 ( 文本、图像、视频、音频等 ) 继续发展,也将越来越逼近人类的智慧。
# ~6 f R" o( W0 C; J# z. L在不少专家学者看来,如果大模型足够成熟,将改变教育体系的核心要素,包括教育目标、知识获取方式等。所以,这波 AI 技术的爆发非常值得教育领域关注。
0 x7 B& H, F. [那么现在,各家的大模型进展到什么程度了?是否可以在学习或者教育领域直接利用呢?我们让百度的文心一言和阿里的通义千问 PK 了一下。' z/ ?: p5 N; f) G7 }" z
我们让文心一言和通义千问在高中英语翻译、初中数学题目、高中中文写作、代码生成、青少年心理辅导方向各出了一道题目,双方针对所有问题各自回答一遍,这样就总共是 10 道题目。
# \$ D$ k/ u) t4 e( h通过评测,我们看到了大模型在学习或教育类的问题上暂未成熟,尤其是数学这样要求精准的科目上,仍然需要继续训练。不过,我们依然看好大模型的未来,他们在教育领域的应用也是必然。* N! j! ^3 C/ t* }- A" `
01& J* Y5 v- q$ h9 e+ w
" 作为出卷人 ":题目正常、不算偏怪难. @6 ~' L& f+ c
+ n( s) q f. Z8 V8 x" }) _
万万没想到,在出题上双方就迥然不同。以下是双方给出的题目:
" m" @. ~& _) j" U- t! V$ j3 P+ ]$ ]5 \9 w; M: ?) G. S3 I$ u( b
$ P G; T4 m' t6 `6 P' f! f
- d. \$ o# B3 Q1 E# L- Z/ d* _2 D
4 I2 ~: [* q4 r! }- e, z) R9 J$ p# Y- n* F: U: a' I
点评:文心一言每道给出了 A、B 两套题,通义千问按要求给出了 5 道题。我们给了文心一言两次机会,它依然出了 "A、B 卷 ",有些看不懂 [ 挠头 ] ……我们最后从每道题中选择了一道题,除了第 4 题外,其他题目都选择了 A 题目。
1 b+ \7 n9 _* |% n) o对于这 5 道题目,通义千问看起来更灵活,也更有针对性,更像一个 " 出卷人 "。比如,第 3 题,出一道作文题目,跟通义千问的题目就非常像高考热门命题方向,是跟科技与人文相关的。从出题难度上来看,双方出的都比较偏简单。比如翻译题目,双方出的题目看起来都不像高中的英语题目。. E2 u" T8 Z) b/ a2 [
来看他们下面的作答情况——
# k8 K+ x( f2 {; _1 @* C# b" Q02
$ D$ m7 b2 [/ x/ S/ |3 p! o, u翻译题目& _6 O2 F/ X; b4 [! m. `
第一题英文翻译,文心一言的题目,是让把英文翻译成汉语:
8 l. A3 y) D; b/ E( o9 b, J- Z) e8 T) r& B! u4 ?2 H
# T% V$ _# ]( ~# H, M3 U9 U' u+ S$ H5 _5 A2 r5 E
( {) h! Y6 i/ J
9 h* w/ i& P: a4 X& w g
点评:这个题目两个都翻译的大同小异,通义千问的会更具体。可能因为题目是文心一言出的,所以它直接翻译成了汉语。而通义千问会问是 " 翻译成哪门语言 ",考虑得更周到一些。
3 a; i3 Z. T# x. r1 L8 E/ y: f来看通义千问出的这道翻译题目:# M; P C2 r* S
$ K% m$ D" Z* I* b+ `: n. o1 D
) t+ x7 K' A3 O6 n/ ~. O' c
0 B% n8 i3 m9 _. G( h( i
9 B7 {1 U# I" e2 b7 A点评:文心一言翻译的是 " 请问我怎么读这个词?" ,通义千问翻译的是 " 你能告诉我这个词是什么意思吗?" 文心一言的翻译更准确一些。通义千问自己出的题却没有答好,有点匪夷所思。. B! i, B/ C* Q
要么跟通义千问换一个问法吧,回答如下:
$ V. m7 ` ^! `2 I! n* Z
9 {! o1 P8 q7 R3 ~; f
- S7 f V. K( Z; p% B% w! h0 Z
! W! U+ Z) v; `4 v越来越离谱了。。- p( K# a1 s0 h8 }
0 u4 x/ a n" c i3 L5 W# x( w
; u. g' O0 W7 {- K
- @/ U" M0 `, `9 U! M; P4 k5 T9 C- R2 z$ I
- D7 l# Q& X; I, ^% A
通义千问多轮对话的能力堪忧……" J4 f( x+ B7 [
03
' ~: s9 J) @% a& a9 N9 [数学题目
- g* w2 [( u; Z4 E8 D来看初中的数学题:
4 }, U- Z8 m& \4 C4 b& ~5 n' B4 Q
U. C& k8 j) S, T5 U. A8 @
2 X% R; }$ K* D; I/ h
# r+ k" M( j. r' X* C1 B# u
( H L5 F+ }5 W% B( }) K
, K. F2 t1 P7 A: i, T M点评:又一次匪夷所思,这次轮到文心一言出的题目自己也做错了。这道题目是分数相乘的结果,文心一言理解成了除法。即便理解成除法,最后也不应该等于 6。不知道这个结果怎么来的,迷之尴尬。通义千问理解对了,最后是 1/8,即 0.125,这是一个确定的值,不明白为什么最后它写的是 " 约等于 " 号,不知道是因为不自信,还是因为马虎写错了?; O4 c I5 @! V. N
这次二者相同的地方在:都没有给出解题步骤,也没有给出解释。
( M* n& h. E* _$ w" @$ f$ L通义千问出的初中数学题目:
8 W1 z& l5 i1 a- ~. `
6 x$ ~" w) e: w8 x" _: U4 q/ Y- B# ~3 ]. C9 `4 N) ?
+ ~" J% L& E) d: Q" b: E% Z/ V" d' e8 C' m0 m
6 R7 r+ x* ~* E. \: Z. A点评:让文心一言回答了两次,都是 x:9,y:0,文心一言可能连正三角形是什么都不知道。这个题目通义千问回答地非常清楚,给出了完整的解题过程,结果也是对的。2 P0 U1 P4 S! Z2 A9 @( L: |
有点不死心,再次问了文心一言:+ O- ^4 U* b {4 i/ H
6 v5 u& b* M- B! a6 Z
* g% c, ^1 W' u
* s5 w. u/ s6 @4 T4 w
我们发现,文心一言其实知道正三角形是什么,但是,它就是解不对题目,第三遍依然错误。3 P4 \4 ^! i* ?' ^) }" s
还是不甘心,继续跟文心一言对话,想着让它让画一个正三角形的图吧,如下:; L1 G0 M4 Q1 o
% y" x9 @1 n0 G. c! n' j0 Y; { `& C O. n# S% _
! l) `% c+ n8 Z% s3 N+ i D
这……好吧 o ( ╥﹏╥ ) o,文生图的能力还得加油啊 ~~
( j+ f8 [' J0 f3 ^6 X9 r; B044 l7 T( U7 J W2 n
写作题目) ^' [7 u3 Y3 e" ]3 t' R a: Y
来看文心一言出的写作题目,双方的作答情况:
0 Q2 \' C" u; S7 i2 k
! u9 g4 L6 ]/ q. u+ ]
3 p4 ~4 \, C9 C' Y$ t$ X2 j3 f) p1 e7 r- Q1 Z2 J) W
, K/ G- k4 _2 o& e9 g7 N& {5 ~0 A, j& e' t. S) b! z
点评:从题目来说,这道题让人想到央视 2012 年的采访," 你幸福吗?" 这道题目看似简单,实则有一定难度,很容易落入俗套,很难脱颖而出。9 e0 V% A% x1 d6 k( I! G
再看两者的小作文,第一句话居然神同步了。从内容来看,二者结构也基本相同,均是从各个角度阐述 " 幸福 ",不过,文心一言更偏重个人层面的感受,而通义千问涉及到社会层面以及与他人的关系。整体来看,不分伯仲。大家觉得呢?
+ K0 v, g7 l" y. d4 a9 `; S% o来看通义千问出的作文题目,双方的作答情况:
) h, _4 A4 {. Q, g+ T( f) a) q! Z/ D
6 ?% F3 ^; V8 S# e& e c) p
: @& b2 P6 r; ~' }/ n6 t A
, w/ g' y5 o( _4 x- E
+ m1 v0 j. p, ?% O! A
+ U! ^* L8 z; N) @
. ]- E. d5 {' q$ D* t; B
7 m- z) M. ^" s& Z4 S: p# L( U3 e. t" v
; V/ A5 g6 X; X9 O1 Y, R, Z/ N; ^
8 \7 x1 t4 {1 O% w9 Z7 y& M$ o
点评:从题目来看,通义千问出的这个题目非常像高考作文,很有出卷人的视角,是科技创新的方向。3 u1 J* E5 }8 K" q/ o2 g
对于两者的写作,文心一言对这道题目似乎有很多思考,但直接按框架写作的,有点像论文,读起来有些生硬。通义千问的这篇虽然篇幅不长,但看起来更像一篇议论文。
' ^- ~$ c$ t; b- ?# S- y& w5 W05
, S9 U! r" \& c. v0 F5 P代码生成6 }- b+ K) X% ^4 {8 {* b
来看代码生成的相关题目:) P- O, m* e) X3 O2 Z2 P
4 Z# i4 K; h$ h! ^
+ T4 e+ M& T4 Q6 H
: ~4 G6 K- [$ F# ]
) m4 o+ i1 j0 u7 q# E/ C' q1 N! h2 R# X( z3 r; [0 ] J/ ^ p
点评:文科生表示看不懂,拉来一名程序员帮忙看了看,他表示:" 核心段是一样的,不过,文心一言没有声明变量。" 懂编程的老师们可以留言点评一下 ~~
; H5 A8 v3 X+ t! M再来看通义千问出的这道代码生成题目,二者作答情况:3 g2 Y) J) m9 M" Y- E
& b2 n/ I: u7 ?2 A" V
7 h, D# J, v& r4 S
) e. d" `( w' ~: u
! n; F& e6 ?) H, p/ T! e: f1 _$ v, ^! Z
点评:同样来自程序员的评价:" 这两个对题目的理解都不一样,所以写的也不一样。文心一言的是生产随机字符串,26 个字母随意拼;通义千问的是随机的英文单词,我感觉这个更切合题目。"
K. O- D k/ z" h: V d: Z06
' _5 D' ^. i5 a+ M2 q" A* e! b心理辅导
, ^+ _- t7 w4 u Q最后是心理辅导方面的题目,文心一言出的题目,看看双方的作答:! D* O0 U8 D- D; n, K! J
' d/ ?7 ~2 q5 _
0 \# _) Q$ \' i$ `
! h: s) ?" e; Z; s; S# M
! }, A9 ` ]1 f+ c- |9 {) i8 q+ I
点评:从题目来看,文心一言出的这个题目比较宽泛,比如情绪有很多种,是什么样的情绪呢?文心一言并没有说明白。在作答方面,二者在心理方面的辅导大同小异,且都是列点式的回答。两个都给出了管理情绪的具体方法,比如都提到了冥想。9 M. O6 E1 v; {1 h% ]
最后一道题目,由通义千问提出的问题,看看双方的解答:2 V8 W3 o: n- e9 {5 A
* |6 F7 }3 b7 |; y; G% U; I! U% X: n h2 C
* Z9 z2 t) d1 r
/ U* V' ^3 T- T2 Z$ R0 e6 o' G' g
! h3 Q$ n; X& Y; _/ }! r x: a
) d2 d2 B9 X* O+ h8 x
' \9 Q2 S- q5 ^; X5 A8 w0 J; u0 V) Q4 b" ^3 H
7 W/ J t& [% ~
点评:首先先看题目,通义千问的问题非常具体,很有针对性。再看作答,两者给出的心理解决方案都非常具体,文心一言还给出了 " 焦虑和压力 " 形成的原因。二者给出了不同的心理辅导方案,通义千问的会更多元一些。相同的是:二者都提到了学会调节情绪,还都提供了相应的理论参考。1 {' {' V" w" i3 h& S: L5 W
07
& u% h" k. y/ \# @总结# }# ?% V2 O' u( s: d
在出题方面,通义千问像一个出题高手,针对性较强,文心一言出了 A、B 两套题,可能想提供更多的方案,但有的题目比较宽泛。; b( l8 J0 ^; t0 ?, A
针对题目解答,在翻译类题目上,二者不相上下,文心一言可能略胜一筹。) e; k! { `4 s! ^
在数学类题目上,看起来通义千问更好一些,有的还给出了清晰的解题过程,文心一言还需要提升。
/ c# F. d) b9 n. J1 c [% P在作文题目上,二者各有千秋,但都还是有机器回答的痕迹。8 g- H' P8 {/ r: n5 R, P& k" n
在代码生成题目上,都有这方面的能力,可能文心一言需要更理解题目。
?% A( [1 o& G7 m* O" c在心理辅导方面,二者都比较详尽,对学生和家长来说有一定的指导意义。$ I7 A5 m; e2 {6 b2 u% M, |: j
从整体作答风格来看,文心一言偏稳重,通义千问更灵活一点。
) J* ~0 \% ?. d, R+ o从答题速度上来看,通义千问的速度更快一些。比如先给文心一言输入问题,再给通义千问输入问题,最后先作答结束的是通义千问,文心一言似乎会有一个 " 思考 " 的过程。 `6 P, Y/ B4 n1 z$ V& ^% a
从多轮对话能力来看,两者都有一定的多轮对话能力,都可能会根据反复对话有所校正,文心一言可能略好点,通义千问有时候比较疯魔。
0 r8 _4 ~4 u0 _6 @6 z" c文生图方面,文心一言还需要提升,差距比较大,通义千问还没有上线文生图。6 f U' _4 i% s; U! I. }. ]' C9 A
这次评测的均为学习或教育方面的问题,题目不多,或许评测有偏颇。整体而言,完全用我们目前的大模型来辅导学习,尚存距离。国内的大模型还在路上,需要给他们成长的时间。正如 ChatGPT 一样,它也经历了从胡乱解题,到逐渐靠近正确答案,尤其是 GPT-4,在专业和学术上接近人类水平。5 j/ @" S% _ D$ ]* {0 f
盖茨说 "AI 聊天机器人将 18 个月内可以辅导作业 ",指的应该是国外的大模型,国内的或许还需要更长时间。
: d5 L+ G, |2 ?( a; lEND! i/ }0 S% t) C& I9 f+ \2 I
本文作者:王上 |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|