|
|
; G' Q+ d: y% R2 }5 F y8 [
1 C" v& j1 x9 ?& L; Y( x
国内的大模型还在路上,需要给他们成长的时间。
/ o1 |! _' i8 h来源|多知网2 m- W/ }$ q/ j$ G
作者 |王上) J* j% Z. c7 g1 J
图片来源 | 言之画, E8 g4 c( {* i/ X
比尔 · 盖茨上周二在圣地亚哥举行的 ASU+GSV 峰会上发表主旨演讲时表示:"AI 聊天机器人将 18 个月内,可以做到教孩子阅读,辅导家庭作业。"* c+ K7 X8 \, j+ i! ^" V
今年 3 月和 4 月,百度和阿里巴巴分别推出了自己的大模型。目前来看,百度的文心一言和阿里的通义千问均可以多轮对话、文本创作等。
, F. H# s ^5 ?未来,大模型将会朝着多模态 ( 文本、图像、视频、音频等 ) 继续发展,也将越来越逼近人类的智慧。
4 I, m" O$ \4 X+ o& F" Y, _在不少专家学者看来,如果大模型足够成熟,将改变教育体系的核心要素,包括教育目标、知识获取方式等。所以,这波 AI 技术的爆发非常值得教育领域关注。' U( n( |# x/ z; z
那么现在,各家的大模型进展到什么程度了?是否可以在学习或者教育领域直接利用呢?我们让百度的文心一言和阿里的通义千问 PK 了一下。5 o7 t! r' h. z% i% f- o3 S
我们让文心一言和通义千问在高中英语翻译、初中数学题目、高中中文写作、代码生成、青少年心理辅导方向各出了一道题目,双方针对所有问题各自回答一遍,这样就总共是 10 道题目。
: l- V! @+ R( j% L通过评测,我们看到了大模型在学习或教育类的问题上暂未成熟,尤其是数学这样要求精准的科目上,仍然需要继续训练。不过,我们依然看好大模型的未来,他们在教育领域的应用也是必然。5 l e6 q1 h: w3 Y! Z: L1 x6 @
01! _9 m* J5 ?' |0 E
" 作为出卷人 ":题目正常、不算偏怪难3 l; D0 f: @4 M k2 m8 _8 g+ c
. x5 b$ ~6 I4 C1 H" O$ {/ @/ V# }
万万没想到,在出题上双方就迥然不同。以下是双方给出的题目:3 C1 S; h# Q' s2 b
( u( W/ F( q; y* p+ \6 X0 G
" a4 M7 ` G: U/ W6 i# B
& R3 s5 t% I; D
8 \& n5 i8 Q7 ~: e
% i% X0 g, v+ o0 r$ _
点评:文心一言每道给出了 A、B 两套题,通义千问按要求给出了 5 道题。我们给了文心一言两次机会,它依然出了 "A、B 卷 ",有些看不懂 [ 挠头 ] ……我们最后从每道题中选择了一道题,除了第 4 题外,其他题目都选择了 A 题目。
2 X8 D; N0 @4 {# \* p% T对于这 5 道题目,通义千问看起来更灵活,也更有针对性,更像一个 " 出卷人 "。比如,第 3 题,出一道作文题目,跟通义千问的题目就非常像高考热门命题方向,是跟科技与人文相关的。从出题难度上来看,双方出的都比较偏简单。比如翻译题目,双方出的题目看起来都不像高中的英语题目。6 O% ~9 l4 T3 V) b5 [
来看他们下面的作答情况——
7 f0 p& `& G/ d; ^02. \ F2 }. c$ ^. X" }4 M
翻译题目$ h% D: f6 M2 B+ g. ^8 g0 }
第一题英文翻译,文心一言的题目,是让把英文翻译成汉语:
; R( V T3 ^$ a0 S
+ z/ ^5 g+ N! v- ]9 e5 S7 [( P8 H; A6 M& J- f
. ?3 W9 Y7 _* ?$ b
9 Q7 o) ?( ] A" H7 d3 ~5 [% [: I
! n# t9 Z1 s6 R: G% a3 d# x
点评:这个题目两个都翻译的大同小异,通义千问的会更具体。可能因为题目是文心一言出的,所以它直接翻译成了汉语。而通义千问会问是 " 翻译成哪门语言 ",考虑得更周到一些。
0 Y( r+ Y% N/ m2 t6 b# I0 p4 k来看通义千问出的这道翻译题目:, n3 m Y _% z4 {3 _) v$ O
! g* i4 O; y, t) @: b7 Y4 U8 I' ^* C+ d! h: J6 J: S
& T9 \! V# G d% r$ j1 q
& r) e4 D1 f& R' `, _* l点评:文心一言翻译的是 " 请问我怎么读这个词?" ,通义千问翻译的是 " 你能告诉我这个词是什么意思吗?" 文心一言的翻译更准确一些。通义千问自己出的题却没有答好,有点匪夷所思。
$ C" R0 d1 R2 \$ y! ]9 C0 k要么跟通义千问换一个问法吧,回答如下:$ m" a4 w; J, F( o' d9 t
" c: G- F) O6 n$ F' C* }
$ F+ Z; Z0 L7 R& i5 u8 W$ w9 h! @& ^" e
越来越离谱了。。
/ s4 l3 c* w+ B/ l0 ^* z/ ^( A% b& f9 H$ w
* T2 c( p+ K3 f! U2 d; f* q" ?( R* q z" |8 N& M. h
) T+ C) K0 x& R" U1 A' E
) L% B$ i- C% i通义千问多轮对话的能力堪忧……
& K1 M" k: L# W% u) I; ~+ P# n03& _1 {9 s8 k7 z
数学题目$ V. _) u9 i4 O2 [/ D/ l
来看初中的数学题:* E7 r/ s+ ?7 c' X5 t& Q: x! [
' S3 }' J8 y0 B( B+ g
3 L3 u# H& F# v! e* [
8 O2 \) T+ K+ ?. P9 b% R/ k% N
6 {0 ?& u: s, W2 ^% ]
+ g5 {5 \6 w8 W点评:又一次匪夷所思,这次轮到文心一言出的题目自己也做错了。这道题目是分数相乘的结果,文心一言理解成了除法。即便理解成除法,最后也不应该等于 6。不知道这个结果怎么来的,迷之尴尬。通义千问理解对了,最后是 1/8,即 0.125,这是一个确定的值,不明白为什么最后它写的是 " 约等于 " 号,不知道是因为不自信,还是因为马虎写错了?
/ l& W3 y, q& ^: H" f' |3 A- _1 T这次二者相同的地方在:都没有给出解题步骤,也没有给出解释。5 U, L2 N3 B8 F3 r% U- c" e3 [
通义千问出的初中数学题目:
% U% i' v$ |& T) F1 x0 t
$ ?7 s# ]9 _, H7 X: y7 e, s
% E& C- }+ P9 L$ M7 `8 X- ?
7 i2 L6 w% @1 m+ d( S7 \1 k. H* f* G) }4 f. o0 M
9 U, \2 f, X; k6 e4 n- L+ Y点评:让文心一言回答了两次,都是 x:9,y:0,文心一言可能连正三角形是什么都不知道。这个题目通义千问回答地非常清楚,给出了完整的解题过程,结果也是对的。
7 ~. d+ S1 d% F% E5 D有点不死心,再次问了文心一言:
; x) K3 C& n1 z9 Y6 K$ _) n" I, q5 S
/ w2 |$ F2 B4 V, P
9 Y, v3 X; a' @7 D* B% n我们发现,文心一言其实知道正三角形是什么,但是,它就是解不对题目,第三遍依然错误。8 \) [+ j5 a5 U+ `" r, b: _
还是不甘心,继续跟文心一言对话,想着让它让画一个正三角形的图吧,如下:
! V D; c& P* _' ?+ `9 p3 R3 l- c8 A3 s6 O9 t
) b, `- X5 k0 Q( U2 W
* c- S% G6 G! Z8 ~! K这……好吧 o ( ╥﹏╥ ) o,文生图的能力还得加油啊 ~~
( } j, k! G7 q P& y# D" x: m04
- E# e7 b# J1 i: Y z* s: C' a写作题目
, W( Y4 m$ }5 ]! O t来看文心一言出的写作题目,双方的作答情况:
: a! O# ^& i. G4 k
. r5 M! n7 L8 s- B7 J0 V
4 T8 X" L, [* o3 t; F$ k6 F! \1 N$ ~3 R
5 s- X/ D# k4 X4 |: o) w! o" y
) P' h* |: ^" ~% l0 e点评:从题目来说,这道题让人想到央视 2012 年的采访," 你幸福吗?" 这道题目看似简单,实则有一定难度,很容易落入俗套,很难脱颖而出。
6 N& R4 N& J; I$ {0 t C再看两者的小作文,第一句话居然神同步了。从内容来看,二者结构也基本相同,均是从各个角度阐述 " 幸福 ",不过,文心一言更偏重个人层面的感受,而通义千问涉及到社会层面以及与他人的关系。整体来看,不分伯仲。大家觉得呢?
/ y; x5 C# s/ V1 z& ^" u来看通义千问出的作文题目,双方的作答情况:
& _# U8 Y$ d0 T5 m$ b$ M) T
8 i& Y3 i7 J' s% V ?( O
1 F( [0 n2 c0 K" W' M* F. R
6 D6 E+ m% B4 t- r! W) b1 P8 t: \, U2 u* W" i! V1 p. q- C, [ j
- d! Y0 B% a h
( C' t6 F( b* s
& V* j+ v. U1 E2 a. P* T7 h c0 p2 C0 b( r9 h8 u5 k
3 ~3 X4 O/ p& F2 b7 G; v
7 O/ |& l. p/ f6 d* X6 |" `0 T
: k c l- D6 p4 y/ y
点评:从题目来看,通义千问出的这个题目非常像高考作文,很有出卷人的视角,是科技创新的方向。0 }6 x' D5 o8 Q( ~8 J
对于两者的写作,文心一言对这道题目似乎有很多思考,但直接按框架写作的,有点像论文,读起来有些生硬。通义千问的这篇虽然篇幅不长,但看起来更像一篇议论文。
. W0 K8 O% f) A) {/ g n05
* W# j) h6 `: k% Q7 C x5 J9 s代码生成
2 U; ?6 Q2 U& R来看代码生成的相关题目:0 W0 A7 n7 ?+ D% P7 g6 ~4 o
3 u% b1 [# R0 \% N7 B* r# D" J( Z6 g- r3 }: z3 G8 _
& X1 K# I1 _: d8 w, ~
5 f, J2 F% l! `4 B* L/ g/ ^% [4 U
$ a+ T1 p: |. f点评:文科生表示看不懂,拉来一名程序员帮忙看了看,他表示:" 核心段是一样的,不过,文心一言没有声明变量。" 懂编程的老师们可以留言点评一下 ~~
0 ]2 V3 s0 ~& Z; o$ Q. T再来看通义千问出的这道代码生成题目,二者作答情况:
5 f" a8 G; n9 t) w. a/ M1 U1 G% V+ C5 [7 B8 }! L
) O- U$ B( v. c; e
( g. n+ j; N) {6 B! }# Q& |* B
9 n4 N a7 `2 v" c: t; E8 V$ f- |' z2 g* C0 n; t- `( N: z0 {9 O5 N
点评:同样来自程序员的评价:" 这两个对题目的理解都不一样,所以写的也不一样。文心一言的是生产随机字符串,26 个字母随意拼;通义千问的是随机的英文单词,我感觉这个更切合题目。"
# H% c' T$ n2 b% O/ w4 G063 [' l- @4 P6 K# O! |
心理辅导
8 Z! }% f& g# t( D" C/ x最后是心理辅导方面的题目,文心一言出的题目,看看双方的作答:
( j6 _9 Y. E1 V# C7 i0 P) n- O( X
; t4 L. _6 l& a* h# Q" q
; c9 Q0 S' ?+ c9 S" g7 C0 p) e; [+ H( d8 ~( z4 F" i" ~* B/ S# Q
5 ]7 z7 Y1 S: Z2 l$ O
% e$ @( r" v: y' s! s$ D8 p6 [4 k点评:从题目来看,文心一言出的这个题目比较宽泛,比如情绪有很多种,是什么样的情绪呢?文心一言并没有说明白。在作答方面,二者在心理方面的辅导大同小异,且都是列点式的回答。两个都给出了管理情绪的具体方法,比如都提到了冥想。 u3 P1 O6 l: m
最后一道题目,由通义千问提出的问题,看看双方的解答:* p( g6 V H0 ^* g* P
9 y W7 g( g4 ~ _; l
7 Z5 s# a" {8 U* H% }) j: o7 k q
7 z& S0 C; d- w
. q. {" e6 h& Y+ S L$ B1 G; Z) A; M4 i
% o+ u G0 j' K% m5 q9 S8 c; K, J$ e4 f
6 [0 ^8 h e* i
0 B4 S% U7 |/ b' k6 y点评:首先先看题目,通义千问的问题非常具体,很有针对性。再看作答,两者给出的心理解决方案都非常具体,文心一言还给出了 " 焦虑和压力 " 形成的原因。二者给出了不同的心理辅导方案,通义千问的会更多元一些。相同的是:二者都提到了学会调节情绪,还都提供了相应的理论参考。' @' u" t d( A( |/ W* I- [
07; F$ R8 _7 ]) R$ ^0 n" a1 O W# c
总结8 ]8 }2 V8 c5 q+ d6 ~
在出题方面,通义千问像一个出题高手,针对性较强,文心一言出了 A、B 两套题,可能想提供更多的方案,但有的题目比较宽泛。
1 K8 r% w/ b6 n, c( n针对题目解答,在翻译类题目上,二者不相上下,文心一言可能略胜一筹。' A. k% Y: d% m. C
在数学类题目上,看起来通义千问更好一些,有的还给出了清晰的解题过程,文心一言还需要提升。
( E$ z1 O& Y) i5 R) X1 ?- G8 x: t在作文题目上,二者各有千秋,但都还是有机器回答的痕迹。) s, |& |1 y0 X% S+ _% B% i" t& b
在代码生成题目上,都有这方面的能力,可能文心一言需要更理解题目。
+ w- |9 h7 Z, x( C& w在心理辅导方面,二者都比较详尽,对学生和家长来说有一定的指导意义。
& O- ]5 H( o. `从整体作答风格来看,文心一言偏稳重,通义千问更灵活一点。% b* l7 n" x* [' t2 A( l6 }
从答题速度上来看,通义千问的速度更快一些。比如先给文心一言输入问题,再给通义千问输入问题,最后先作答结束的是通义千问,文心一言似乎会有一个 " 思考 " 的过程。- s3 [2 [& R! v; g- r
从多轮对话能力来看,两者都有一定的多轮对话能力,都可能会根据反复对话有所校正,文心一言可能略好点,通义千问有时候比较疯魔。- ~# S. g- d7 D8 d; Y) ^
文生图方面,文心一言还需要提升,差距比较大,通义千问还没有上线文生图。; {. {1 `$ R6 J% f. x/ g- U, w2 r; c
这次评测的均为学习或教育方面的问题,题目不多,或许评测有偏颇。整体而言,完全用我们目前的大模型来辅导学习,尚存距离。国内的大模型还在路上,需要给他们成长的时间。正如 ChatGPT 一样,它也经历了从胡乱解题,到逐渐靠近正确答案,尤其是 GPT-4,在专业和学术上接近人类水平。
" n' ~4 L) A4 q9 P7 [2 E% p& n3 q盖茨说 "AI 聊天机器人将 18 个月内可以辅导作业 ",指的应该是国外的大模型,国内的或许还需要更长时间。' K: K }3 g3 G
END
% {5 b/ n- w. g本文作者:王上 |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|