|
|
% j- A7 R0 j2 A v+ z1 z( e4 E! g) {* z
国内的大模型还在路上,需要给他们成长的时间。" b$ I: E E/ D4 m1 e8 H" S
来源|多知网- I) ?7 J4 ~# N) H5 y3 K+ ~7 Y
作者 |王上, Y F! n0 z% U* e& i9 _4 a
图片来源 | 言之画
* z/ O, @- X+ {9 N* I. o比尔 · 盖茨上周二在圣地亚哥举行的 ASU+GSV 峰会上发表主旨演讲时表示:"AI 聊天机器人将 18 个月内,可以做到教孩子阅读,辅导家庭作业。"3 }% J/ b7 P0 _( \
今年 3 月和 4 月,百度和阿里巴巴分别推出了自己的大模型。目前来看,百度的文心一言和阿里的通义千问均可以多轮对话、文本创作等。
1 O) s2 I' h( y% g: U5 n% K# J1 j未来,大模型将会朝着多模态 ( 文本、图像、视频、音频等 ) 继续发展,也将越来越逼近人类的智慧。; m* q k; G) d- `! ~
在不少专家学者看来,如果大模型足够成熟,将改变教育体系的核心要素,包括教育目标、知识获取方式等。所以,这波 AI 技术的爆发非常值得教育领域关注。
- F! l' b5 K1 A. C那么现在,各家的大模型进展到什么程度了?是否可以在学习或者教育领域直接利用呢?我们让百度的文心一言和阿里的通义千问 PK 了一下。- m1 Y4 f( I. N( P' G
我们让文心一言和通义千问在高中英语翻译、初中数学题目、高中中文写作、代码生成、青少年心理辅导方向各出了一道题目,双方针对所有问题各自回答一遍,这样就总共是 10 道题目。
& Q' ^0 `. I, S) ?! T1 O" X9 [" l通过评测,我们看到了大模型在学习或教育类的问题上暂未成熟,尤其是数学这样要求精准的科目上,仍然需要继续训练。不过,我们依然看好大模型的未来,他们在教育领域的应用也是必然。
1 _/ n' s$ l" f. O; Y01
5 t0 ]5 j0 j* j1 t5 \: u " 作为出卷人 ":题目正常、不算偏怪难
# |9 B* I1 t _7 U4 k: a
0 |0 V0 A8 A: Z万万没想到,在出题上双方就迥然不同。以下是双方给出的题目:
7 {# L* A U& W
( B+ ~/ J8 d1 `8 P
# s) x. i) b2 N/ ^% r3 o: c b
" w0 w5 `3 R' x. n- x1 K
5 C/ r' N3 W/ Y. U) v$ |2 U5 n Z
点评:文心一言每道给出了 A、B 两套题,通义千问按要求给出了 5 道题。我们给了文心一言两次机会,它依然出了 "A、B 卷 ",有些看不懂 [ 挠头 ] ……我们最后从每道题中选择了一道题,除了第 4 题外,其他题目都选择了 A 题目。
1 n4 G1 {1 \% H+ Y对于这 5 道题目,通义千问看起来更灵活,也更有针对性,更像一个 " 出卷人 "。比如,第 3 题,出一道作文题目,跟通义千问的题目就非常像高考热门命题方向,是跟科技与人文相关的。从出题难度上来看,双方出的都比较偏简单。比如翻译题目,双方出的题目看起来都不像高中的英语题目。
# ?" W2 ], ^$ Y! X/ U1 E6 Y5 c来看他们下面的作答情况——
h6 X( M. H f/ {+ }02
" G, o% S; e& l7 H6 o9 C4 y; r翻译题目
* R& E- s+ c2 f4 c+ J+ d3 A0 J# m第一题英文翻译,文心一言的题目,是让把英文翻译成汉语:
' m0 w$ V, Y0 w7 V" |$ S# D9 g6 n5 a8 ?: ~( P3 o5 q
0 @# j7 u1 T6 k; Z
. x, k1 @8 w9 t a" P h3 v
1 V; r! ^$ o5 v6 T) z& H& ?9 S( z& u
点评:这个题目两个都翻译的大同小异,通义千问的会更具体。可能因为题目是文心一言出的,所以它直接翻译成了汉语。而通义千问会问是 " 翻译成哪门语言 ",考虑得更周到一些。0 M# I0 U: K2 i
来看通义千问出的这道翻译题目:
% s2 H' z' b6 |
, o; a. ]% \+ `+ f! x! _5 q0 z! d# W/ r4 L P. [, L6 a3 m }
# t2 O8 b: r2 K, G( m
1 G; H- i0 M) _1 G- N- L9 o点评:文心一言翻译的是 " 请问我怎么读这个词?" ,通义千问翻译的是 " 你能告诉我这个词是什么意思吗?" 文心一言的翻译更准确一些。通义千问自己出的题却没有答好,有点匪夷所思。+ `, N' X. l" x1 P* d* ^' ~, _
要么跟通义千问换一个问法吧,回答如下:7 [% a- u# G& ^! Q+ K- b6 n4 g
- M- f1 s* ]9 U1 V
5 C; B3 m& |& |, s. Z9 a0 H( d
4 C! p k: ^4 [; Z( ]1 Z9 ^越来越离谱了。。$ A" v5 J# y# W
, {. T8 D+ p; A4 S" a% r
& p! j1 i2 Q7 I( u
! {& i$ P2 G( H5 ?3 U% k3 j
8 b3 D$ J3 x1 s6 @. Z
' g- [; z, r! J K/ X" K- [
通义千问多轮对话的能力堪忧……
2 |/ e4 A0 L8 k# m03) X3 g9 j/ A* r, V9 Y, j4 S B
数学题目3 |( X$ s0 C) k
来看初中的数学题:
- n& H2 [" S& `+ P" t2 e& [4 N6 c" q, \
1 g3 ?; W! |7 o; d2 X. D
/ [# }5 ?# n* V% r" B
: E0 \0 f& N' f) H$ U3 E9 [6 L! k9 _, \1 }' u# o! ^
点评:又一次匪夷所思,这次轮到文心一言出的题目自己也做错了。这道题目是分数相乘的结果,文心一言理解成了除法。即便理解成除法,最后也不应该等于 6。不知道这个结果怎么来的,迷之尴尬。通义千问理解对了,最后是 1/8,即 0.125,这是一个确定的值,不明白为什么最后它写的是 " 约等于 " 号,不知道是因为不自信,还是因为马虎写错了?# f% b. A" d8 t- Z* R
这次二者相同的地方在:都没有给出解题步骤,也没有给出解释。
1 O# x4 D4 z$ S A通义千问出的初中数学题目:
% C) _5 ]+ w7 ]3 x3 s' {
4 ~' w: H( G" J8 C& T' K6 }; h. h! x P% r' j) g
6 [% _$ \- M$ i# P- e
2 u- K6 w7 x5 n: E l4 `
! {' @! B# q' L& \- q8 u点评:让文心一言回答了两次,都是 x:9,y:0,文心一言可能连正三角形是什么都不知道。这个题目通义千问回答地非常清楚,给出了完整的解题过程,结果也是对的。
4 |7 Z, `0 m7 e) |! Y有点不死心,再次问了文心一言:4 B( ]7 }5 Q- T' G
1 ]5 N" i; f/ N
3 B, x- r5 H1 l( s
; I2 F- |* B: M" u2 G9 t2 Y我们发现,文心一言其实知道正三角形是什么,但是,它就是解不对题目,第三遍依然错误。
1 q+ S* A# n4 S3 T" H还是不甘心,继续跟文心一言对话,想着让它让画一个正三角形的图吧,如下:
5 Z) C6 l/ q- }/ s4 b! Y! {9 Z$ r0 V, z9 W1 @; `
3 L q8 Q- W. b0 _ k4 H& o1 s6 o2 \
- n9 ~0 r$ L' D4 {7 Y* R/ A9 H
这……好吧 o ( ╥﹏╥ ) o,文生图的能力还得加油啊 ~~3 w& M8 B; g4 X" I3 G! L4 J
04
" `( d L! I) c; x! q( p: u写作题目+ j. d# k: c1 g" i5 e
来看文心一言出的写作题目,双方的作答情况:
) z8 ] @0 y1 j% ]5 {" b# t" `8 u! J c: n0 m- f: |
( }4 z! Y. B( ]1 v! E7 ?& w
9 g: a. \5 b6 s( W( q. t: @" d5 V% A9 `' h
; Y6 Y0 K& [, C! s( q# H
点评:从题目来说,这道题让人想到央视 2012 年的采访," 你幸福吗?" 这道题目看似简单,实则有一定难度,很容易落入俗套,很难脱颖而出。/ J; q. q! U% m/ t: q( s
再看两者的小作文,第一句话居然神同步了。从内容来看,二者结构也基本相同,均是从各个角度阐述 " 幸福 ",不过,文心一言更偏重个人层面的感受,而通义千问涉及到社会层面以及与他人的关系。整体来看,不分伯仲。大家觉得呢?7 i/ J, a/ Z! ]* g, W
来看通义千问出的作文题目,双方的作答情况:
3 | Q& [! q- [5 ^# W% Z2 Y2 z) B% D6 L- W$ i$ j4 K* b4 d
$ c2 s _# M3 z. [7 I. P. V* e# {3 |: q3 G
, s% o; [/ F6 s: Z) I- C9 P
0 ^' ^) s* m: P- p6 l3 T4 o" l- f
- r. X1 {$ M0 f# L# _+ A% i' P m. a9 P, U3 |# M6 `; r
1 @% T8 h; R# I1 T) @; w. L1 ?# n2 p8 z. n4 e7 k
: S+ e( r+ m" ^& j" g/ J1 S6 ?
9 _9 G' I% A* B! r- b3 ^+ c, L
点评:从题目来看,通义千问出的这个题目非常像高考作文,很有出卷人的视角,是科技创新的方向。- f% O- U2 b$ K0 ^. t
对于两者的写作,文心一言对这道题目似乎有很多思考,但直接按框架写作的,有点像论文,读起来有些生硬。通义千问的这篇虽然篇幅不长,但看起来更像一篇议论文。
5 f0 |, L* _. D7 k9 I& ]8 z05
$ p8 @5 z1 E: m2 j. o代码生成
" Q% B- W ?# K5 S* E8 v$ [, N r* e来看代码生成的相关题目:( U+ {9 a) C* X; j) f; f; y
) Y& m4 n' s# U: T' C' a$ O6 x+ @0 N) I* k" a, o: u" p
- m! V3 y. N$ ~1 o J7 i/ ], M7 K4 g9 M, E6 `
5 i; n8 Z5 w( Z! n9 G- {
点评:文科生表示看不懂,拉来一名程序员帮忙看了看,他表示:" 核心段是一样的,不过,文心一言没有声明变量。" 懂编程的老师们可以留言点评一下 ~~
3 `0 W: g) |0 n: \7 {再来看通义千问出的这道代码生成题目,二者作答情况:+ _' h# u( {+ ~
* n C6 V1 {/ t0 D# f
. e; p" M9 t2 L
2 c7 d! Z! i' o: @
$ w. N8 D+ C0 ^& N3 L" R. @ x; C( B( w; Y: u
点评:同样来自程序员的评价:" 这两个对题目的理解都不一样,所以写的也不一样。文心一言的是生产随机字符串,26 个字母随意拼;通义千问的是随机的英文单词,我感觉这个更切合题目。". D' j5 D& u$ \; G! j. R8 Q- J
06. S$ q5 C1 Z- Y6 h8 a+ q8 T
心理辅导& I; j9 X! n% Y2 V
最后是心理辅导方面的题目,文心一言出的题目,看看双方的作答:
/ {: i, _3 }, J( i. \
( s4 _, [# k' B) Z: |6 Y) H" k7 ]. P6 g5 {; i0 N6 U
7 u' I* V" L' M% }& t6 A2 K/ e. y2 J: o# j6 H/ k1 c# R; b9 K) O5 \
; @$ B( r* v& W/ p点评:从题目来看,文心一言出的这个题目比较宽泛,比如情绪有很多种,是什么样的情绪呢?文心一言并没有说明白。在作答方面,二者在心理方面的辅导大同小异,且都是列点式的回答。两个都给出了管理情绪的具体方法,比如都提到了冥想。3 d: G8 R; G3 M: E: P* F8 Q
最后一道题目,由通义千问提出的问题,看看双方的解答: t( ?, f8 \9 a7 z
" w5 h; o$ @5 `: |- F& j
% Q4 I7 }/ d* X0 D
; C( ~6 s* B- @$ R& @% m1 P! S) C6 t ?# p/ B6 L7 H i
' c% D7 D! b M: I: Y
- J7 q) \) [8 s- @/ U* G+ b
/ I/ [6 R$ t1 c0 k$ ^
' H6 D1 ]- g' E
" C! q/ S3 N' f- B8 k点评:首先先看题目,通义千问的问题非常具体,很有针对性。再看作答,两者给出的心理解决方案都非常具体,文心一言还给出了 " 焦虑和压力 " 形成的原因。二者给出了不同的心理辅导方案,通义千问的会更多元一些。相同的是:二者都提到了学会调节情绪,还都提供了相应的理论参考。- ?8 d3 S. u4 E2 u! g- x$ ?
07
5 Q" P; L* x- X. N! q总结" g0 u( x" W9 b+ H
在出题方面,通义千问像一个出题高手,针对性较强,文心一言出了 A、B 两套题,可能想提供更多的方案,但有的题目比较宽泛。" q( f' y$ u( U% S
针对题目解答,在翻译类题目上,二者不相上下,文心一言可能略胜一筹。
/ i3 O* l7 m2 d ?$ u! y% S在数学类题目上,看起来通义千问更好一些,有的还给出了清晰的解题过程,文心一言还需要提升。
; T6 a" Y, K# q3 X2 l! Q& E在作文题目上,二者各有千秋,但都还是有机器回答的痕迹。6 C: `; a2 B- `* Q) u+ P0 x
在代码生成题目上,都有这方面的能力,可能文心一言需要更理解题目。3 P3 D' C/ r7 N
在心理辅导方面,二者都比较详尽,对学生和家长来说有一定的指导意义。
- Q- A. b# F* T0 k+ ], |4 T从整体作答风格来看,文心一言偏稳重,通义千问更灵活一点。
& {4 D% c6 R5 f* K: \从答题速度上来看,通义千问的速度更快一些。比如先给文心一言输入问题,再给通义千问输入问题,最后先作答结束的是通义千问,文心一言似乎会有一个 " 思考 " 的过程。6 {/ ^- q8 c0 d$ e4 Q9 {
从多轮对话能力来看,两者都有一定的多轮对话能力,都可能会根据反复对话有所校正,文心一言可能略好点,通义千问有时候比较疯魔。
" N r1 i& N+ Y" e8 r文生图方面,文心一言还需要提升,差距比较大,通义千问还没有上线文生图。0 z; z7 k( ^# J5 m+ d1 M' w
这次评测的均为学习或教育方面的问题,题目不多,或许评测有偏颇。整体而言,完全用我们目前的大模型来辅导学习,尚存距离。国内的大模型还在路上,需要给他们成长的时间。正如 ChatGPT 一样,它也经历了从胡乱解题,到逐渐靠近正确答案,尤其是 GPT-4,在专业和学术上接近人类水平。' p0 W7 d) U5 G7 y2 H2 M8 Q
盖茨说 "AI 聊天机器人将 18 个月内可以辅导作业 ",指的应该是国外的大模型,国内的或许还需要更长时间。
& s. f6 O" n, D# C- C' p6 m; I* LEND/ J* n% f6 q; J6 M
本文作者:王上 |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|