京东6.18大促主会场领京享红包更优惠

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 831|回复: 0

文心一言 VS 通义千问,谁更懂学习?

[复制链接]

1586

主题

739

回帖

6687

积分

论坛元老

积分
6687
发表于 2023-4-24 18:38:40 | 显示全部楼层 |阅读模式 来自 安徽
; F; x' Q9 c5 k9 g) k0 p
0 X) ]7 {  x; X- m
国内的大模型还在路上,需要给他们成长的时间。
  ?7 O5 o; ]! A来源|多知网
9 G5 A% ]7 O, S作者 |王上
2 C8 x, j; x" @9 j4 u, c图片来源 | 言之画6 E. P5 h6 A' V3 |6 @! u8 Z
比尔 · 盖茨上周二在圣地亚哥举行的 ASU+GSV 峰会上发表主旨演讲时表示:"AI 聊天机器人将 18 个月内,可以做到教孩子阅读,辅导家庭作业。"# w! E: h/ d' t6 I3 Q
今年 3 月和 4 月,百度和阿里巴巴分别推出了自己的大模型。目前来看,百度的文心一言和阿里的通义千问均可以多轮对话、文本创作等。0 u, v1 O( \$ J
未来,大模型将会朝着多模态 ( 文本、图像、视频、音频等 ) 继续发展,也将越来越逼近人类的智慧。) T4 {# n7 k3 O6 K+ p+ F
在不少专家学者看来,如果大模型足够成熟,将改变教育体系的核心要素,包括教育目标、知识获取方式等。所以,这波 AI 技术的爆发非常值得教育领域关注。3 w, J6 T' j+ B/ m& Y3 }
那么现在,各家的大模型进展到什么程度了?是否可以在学习或者教育领域直接利用呢?我们让百度的文心一言和阿里的通义千问 PK 了一下。1 I9 V( a& u5 d2 Z8 B+ I
我们让文心一言和通义千问在高中英语翻译、初中数学题目、高中中文写作、代码生成、青少年心理辅导方向各出了一道题目,双方针对所有问题各自回答一遍,这样就总共是 10 道题目。
  b1 q+ F1 c6 M0 o) w, Z通过评测,我们看到了大模型在学习或教育类的问题上暂未成熟,尤其是数学这样要求精准的科目上,仍然需要继续训练。不过,我们依然看好大模型的未来,他们在教育领域的应用也是必然。
' O" g4 H; \) g( ~& F" o016 M1 [/ m: ]" V* ]4 j/ p
" 作为出卷人 ":题目正常、不算偏怪难- F8 `3 \  f4 c& ^
2 V5 N5 X; l+ I" c7 d4 Q
万万没想到,在出题上双方就迥然不同。以下是双方给出的题目:/ A  n% K  V6 [

5 z% w' X+ V( Q# ~8 ~& M4 P1 n8 S# ^9 P
7 O, X6 |& P0 e! H3 C( Q
8 g( a* T' ~$ i+ T; D" h6 b

1 E2 F5 P- v$ c% J$ o/ j3 z点评:文心一言每道给出了 A、B 两套题,通义千问按要求给出了 5 道题。我们给了文心一言两次机会,它依然出了 "A、B 卷 ",有些看不懂 [ 挠头 ] ……我们最后从每道题中选择了一道题,除了第 4 题外,其他题目都选择了 A 题目。
% I1 N; K+ I7 w对于这 5 道题目,通义千问看起来更灵活,也更有针对性,更像一个 " 出卷人 "。比如,第 3 题,出一道作文题目,跟通义千问的题目就非常像高考热门命题方向,是跟科技与人文相关的。从出题难度上来看,双方出的都比较偏简单。比如翻译题目,双方出的题目看起来都不像高中的英语题目。0 [* `* {# N* h* ?- T% O
来看他们下面的作答情况——7 e* v/ o. R- s# Z9 e- n+ z
02% M) f% A" }" j" I8 U7 X6 O/ S; o
翻译题目9 q  Q) P2 ?2 z# B  i- T
第一题英文翻译,文心一言的题目,是让把英文翻译成汉语:  a, D# h0 J6 k

# F: ]! T+ Z- H+ y, o$ g; j8 q. z! w# k/ M$ f* `

6 ~  \: `( `- {: X9 Q8 W1 D! J2 N' V$ G% F; R! o% b6 O4 w) P
' E# E" Q* W9 T
点评:这个题目两个都翻译的大同小异,通义千问的会更具体。可能因为题目是文心一言出的,所以它直接翻译成了汉语。而通义千问会问是 " 翻译成哪门语言 ",考虑得更周到一些。! c, K* S! c! a1 N9 s8 A  p" |
来看通义千问出的这道翻译题目:5 M" w* g' _9 m% k; |) G8 p

: `& I, n. D4 H+ R' X. i. J2 f: I+ o/ M4 x! G* U2 B# O5 l' B
6 [1 W& U* k! G1 H

4 H% S7 Z& P7 N点评:文心一言翻译的是 " 请问我怎么读这个词?" ,通义千问翻译的是 " 你能告诉我这个词是什么意思吗?" 文心一言的翻译更准确一些。通义千问自己出的题却没有答好,有点匪夷所思。1 X8 W# h- J% p* O% ~: Z6 H2 J
要么跟通义千问换一个问法吧,回答如下:6 @! X- _; Z5 q7 h0 Y& D- ~3 k

$ c! Q$ B8 E0 Z9 ?
2 y8 ~" @0 W( p: Z+ ^: C* K+ P3 R" e6 v$ ]8 ?
越来越离谱了。。, d: K' a* M& ]8 \9 K6 x$ V& F

2 t  ?! W7 q2 B6 c, Q9 q* k6 O6 t% a( K+ }/ v4 d4 O
) R3 X: _# {' Y6 o5 @7 j/ c3 t

" F" _/ y' H4 H% D" ?
' U) V+ k; x% i$ X1 L7 R. W1 w通义千问多轮对话的能力堪忧……
  @0 E( q5 t, f% s9 M  U034 X6 E6 h3 u2 f: K  G" m
数学题目& ?+ \. F8 E# j( P7 ]
来看初中的数学题:( h0 ^0 g2 ~7 Z. F% u
- R  w$ }( ^1 F
* p% b6 q6 L" m" M2 i1 |6 f
1 G3 J' r& K% g5 d; q$ z8 J- P! s

) ^& r/ |& V+ {- ?3 H  x
2 Q3 R2 y5 s' O: `点评:又一次匪夷所思,这次轮到文心一言出的题目自己也做错了。这道题目是分数相乘的结果,文心一言理解成了除法。即便理解成除法,最后也不应该等于 6。不知道这个结果怎么来的,迷之尴尬。通义千问理解对了,最后是 1/8,即 0.125,这是一个确定的值,不明白为什么最后它写的是 " 约等于 " 号,不知道是因为不自信,还是因为马虎写错了?6 [, Y+ k6 ^( Q; u
这次二者相同的地方在:都没有给出解题步骤,也没有给出解释。
# V3 V3 f2 V* @; M6 e通义千问出的初中数学题目:* A# y  F$ t; D2 B. I0 l8 g* b

6 e3 L4 f9 \, q
: ?- U! A, M( J% ~' H$ C# i  M$ c" \
5 A. N0 N) K* a) z8 p5 Z" G; x
8 Z( @; ^, D9 g  J) \( a
9 U0 A* y& u) L点评:让文心一言回答了两次,都是 x:9,y:0,文心一言可能连正三角形是什么都不知道。这个题目通义千问回答地非常清楚,给出了完整的解题过程,结果也是对的。( m/ b% Y  `8 N* C$ S; ]3 U
有点不死心,再次问了文心一言:9 s) R/ T' e; p' N" n) [

% C$ P2 I: U2 u& i3 S4 E3 A9 p: H' d" n! v% W* Z6 L
. K* L) B2 x1 L' B: q) j
我们发现,文心一言其实知道正三角形是什么,但是,它就是解不对题目,第三遍依然错误。7 k: c7 T9 N" D# r
还是不甘心,继续跟文心一言对话,想着让它让画一个正三角形的图吧,如下:4 F8 F% D. }+ n# l' S$ q& V: O# M6 x

$ a% m) i: h: V  Q8 ?/ B
2 q9 U* j( s! {4 H$ u% o- g; s- r1 _& f, a9 p$ r
这……好吧 o ( ╥﹏╥ ) o,文生图的能力还得加油啊 ~~  k' a8 V! o( J
04
  A" t' l+ }- G) h! N  i8 N( {1 c写作题目
* F* ]: S# k+ Z, z来看文心一言出的写作题目,双方的作答情况:2 r, a$ K: n5 k5 \7 d5 A* `. `

& ?$ ^% f( p3 j$ S
9 c/ j! k! Q$ h% a3 C7 }+ n6 K  w9 u5 R4 _) n5 B

8 l7 q$ B/ u  A7 t: k- T) r2 g# \# `% a, N; t
点评:从题目来说,这道题让人想到央视 2012 年的采访," 你幸福吗?" 这道题目看似简单,实则有一定难度,很容易落入俗套,很难脱颖而出。7 k' g% i$ v% g* [
再看两者的小作文,第一句话居然神同步了。从内容来看,二者结构也基本相同,均是从各个角度阐述 " 幸福 ",不过,文心一言更偏重个人层面的感受,而通义千问涉及到社会层面以及与他人的关系。整体来看,不分伯仲。大家觉得呢?
6 I% q  n, q; h0 L* N' V来看通义千问出的作文题目,双方的作答情况:0 W* l/ z% k6 l3 f$ c) ^- B( g8 Y

* P1 t$ U! ^$ e, s- S! R+ G: k: y5 F% x1 r# U( s3 Y" r' _; c" f

& f  t. [  k, ?8 E3 G& v9 _3 r" A9 y* m: u' z

6 }4 d0 ]/ S! z6 j, t* d0 R8 q" E# U6 a* s  |
: ]) Q( \5 C! E' P$ v; C# ^
( _" F9 O. U# W3 _0 v
" }7 T* K% y3 O5 u- p. V* k

2 F6 t, |, a0 j3 ]
* y* C0 ~5 ~$ ]2 b1 ^点评:从题目来看,通义千问出的这个题目非常像高考作文,很有出卷人的视角,是科技创新的方向。* R3 M& J2 J' s" ]* K+ P
对于两者的写作,文心一言对这道题目似乎有很多思考,但直接按框架写作的,有点像论文,读起来有些生硬。通义千问的这篇虽然篇幅不长,但看起来更像一篇议论文。" _& `1 T: _. {' f( V
05
) p4 P3 s- M3 q% Z* a代码生成4 n5 |) T+ ?+ }1 w9 H* U" t# l& p
来看代码生成的相关题目:
9 L) D: j8 o( h) Z1 A
# u, @# `0 d' g* G: y" z8 t* o
# x8 L1 u% ~  K; a
4 `4 }% `7 v. @9 c9 u
% B4 Q& f1 X% t# d. k/ u  L( t/ d: p) M! u5 H7 u
点评:文科生表示看不懂,拉来一名程序员帮忙看了看,他表示:" 核心段是一样的,不过,文心一言没有声明变量。" 懂编程的老师们可以留言点评一下 ~~
: p: W, Q' _& h$ b* U+ v% c再来看通义千问出的这道代码生成题目,二者作答情况:
5 S# H8 \9 c% b6 X5 G" M7 F7 c# {  m+ i5 Y
2 @) {: O2 U& C# M- B! s! m" z5 O

. e3 v, a# V+ a  G8 U8 L% V" J* @! B( a" I* W

2 J5 Y7 P- g4 x9 i7 ]6 }点评:同样来自程序员的评价:" 这两个对题目的理解都不一样,所以写的也不一样。文心一言的是生产随机字符串,26 个字母随意拼;通义千问的是随机的英文单词,我感觉这个更切合题目。"
6 h$ V, H8 C. s2 R0 {060 S8 L" l/ ^: C$ n2 `/ T
心理辅导
* s. {1 r" g! D8 h. v最后是心理辅导方面的题目,文心一言出的题目,看看双方的作答:
  X& U6 ]( L3 a) w% e, r! I, i2 K2 w
" x) F' t' Z8 J

6 h+ T( |4 M  }  ?8 \$ `4 j2 h+ O& s# j$ _

( A$ J, A8 Z5 k: H8 H& f0 ^6 z点评:从题目来看,文心一言出的这个题目比较宽泛,比如情绪有很多种,是什么样的情绪呢?文心一言并没有说明白。在作答方面,二者在心理方面的辅导大同小异,且都是列点式的回答。两个都给出了管理情绪的具体方法,比如都提到了冥想。
+ Y8 o7 _1 ?& f8 V最后一道题目,由通义千问提出的问题,看看双方的解答:
6 W: t% z2 L4 Q  c4 Y& ~! |/ Z
5 Q0 k0 l& H4 Y, P2 W+ K3 E& q9 g! s! n$ |  p

$ W* @; G7 X  D, @$ s9 K% X: ]$ ^0 J  }& ?+ R+ p) r* A7 ~' J

5 I7 h% O& |9 J0 _7 n* I2 ^' m- p
+ b; k- ^) o, y
2 j) a* q% T) R: Z/ Z/ z4 O" K! c- }, ?4 z0 F) J! j

4 M* f3 w: O  A点评:首先先看题目,通义千问的问题非常具体,很有针对性。再看作答,两者给出的心理解决方案都非常具体,文心一言还给出了 " 焦虑和压力 " 形成的原因。二者给出了不同的心理辅导方案,通义千问的会更多元一些。相同的是:二者都提到了学会调节情绪,还都提供了相应的理论参考。
" k3 ^1 N  H, C$ E6 E! U07
' f! m. N' R! Q% Z5 R总结6 ^3 I' E6 y% x  `/ E1 w
在出题方面,通义千问像一个出题高手,针对性较强,文心一言出了 A、B 两套题,可能想提供更多的方案,但有的题目比较宽泛。; R4 f3 e, |6 ~- l0 S8 @' |
针对题目解答,在翻译类题目上,二者不相上下,文心一言可能略胜一筹。# i: ]% `/ Q. S: ?
在数学类题目上,看起来通义千问更好一些,有的还给出了清晰的解题过程,文心一言还需要提升。$ }) i# Y* B( f$ _- I
在作文题目上,二者各有千秋,但都还是有机器回答的痕迹。* H) c1 [% a' n& S/ k
在代码生成题目上,都有这方面的能力,可能文心一言需要更理解题目。& N- H6 l; |( J6 D# p, @
在心理辅导方面,二者都比较详尽,对学生和家长来说有一定的指导意义。
% z0 D$ i" v& A7 G0 c从整体作答风格来看,文心一言偏稳重,通义千问更灵活一点。' r1 ^0 A. J/ i/ L& g# e. F" e- f1 f
从答题速度上来看,通义千问的速度更快一些。比如先给文心一言输入问题,再给通义千问输入问题,最后先作答结束的是通义千问,文心一言似乎会有一个 " 思考 " 的过程。, n8 `: h) @; n. y$ _
从多轮对话能力来看,两者都有一定的多轮对话能力,都可能会根据反复对话有所校正,文心一言可能略好点,通义千问有时候比较疯魔。
7 T- r) P% A" W* }3 s; V) L文生图方面,文心一言还需要提升,差距比较大,通义千问还没有上线文生图。! B7 v4 }1 E, w' o4 `6 t
这次评测的均为学习或教育方面的问题,题目不多,或许评测有偏颇。整体而言,完全用我们目前的大模型来辅导学习,尚存距离。国内的大模型还在路上,需要给他们成长的时间。正如 ChatGPT 一样,它也经历了从胡乱解题,到逐渐靠近正确答案,尤其是 GPT-4,在专业和学术上接近人类水平。3 w" K- y  I# i9 M7 w8 H
盖茨说 "AI 聊天机器人将 18 个月内可以辅导作业 ",指的应该是国外的大模型,国内的或许还需要更长时间。% m7 y* }6 o# D- W3 Y
END
4 d  {; P- b9 y6 q% J7 _1 R本文作者:王上

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

帖子地址: 

梦想之都-俊月星空 优酷自频道欢迎您 http://i.youku.com/zhaojun917
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|梦想之都-俊月星空 ( 粤ICP备18056059号 )|网站地图

GMT+8, 2026-6-22 15:15 , Processed in 0.075262 second(s), 24 queries .

Powered by Mxzdjyxk! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表