京东6.18大促主会场领京享红包更优惠

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 752|回复: 0

文心一言 VS 通义千问,谁更懂学习?

[复制链接]

1586

主题

739

回帖

6687

积分

论坛元老

积分
6687
发表于 2023-4-24 18:38:40 | 显示全部楼层 |阅读模式 来自 安徽
5 c4 i) K( U1 z# ]& R
! P% e% K% g1 j3 E4 [
国内的大模型还在路上,需要给他们成长的时间。
  o% `' A% Y6 S4 ^0 c/ l来源|多知网
1 N) K: p( P6 }# D! N. o作者 |王上3 `$ J0 k% h; [. U
图片来源 | 言之画
  ^' @2 \( b$ Y7 w比尔 · 盖茨上周二在圣地亚哥举行的 ASU+GSV 峰会上发表主旨演讲时表示:"AI 聊天机器人将 18 个月内,可以做到教孩子阅读,辅导家庭作业。"' J7 M  W( M7 H/ M
今年 3 月和 4 月,百度和阿里巴巴分别推出了自己的大模型。目前来看,百度的文心一言和阿里的通义千问均可以多轮对话、文本创作等。/ d. q) v5 T- a/ ?
未来,大模型将会朝着多模态 ( 文本、图像、视频、音频等 ) 继续发展,也将越来越逼近人类的智慧。: {6 |; T2 n5 I# G* |/ r
在不少专家学者看来,如果大模型足够成熟,将改变教育体系的核心要素,包括教育目标、知识获取方式等。所以,这波 AI 技术的爆发非常值得教育领域关注。
: ?& |+ I4 e- n' n那么现在,各家的大模型进展到什么程度了?是否可以在学习或者教育领域直接利用呢?我们让百度的文心一言和阿里的通义千问 PK 了一下。
5 p' D3 R+ w' ~( L6 N我们让文心一言和通义千问在高中英语翻译、初中数学题目、高中中文写作、代码生成、青少年心理辅导方向各出了一道题目,双方针对所有问题各自回答一遍,这样就总共是 10 道题目。
# B( O+ [6 d% N2 c/ ^通过评测,我们看到了大模型在学习或教育类的问题上暂未成熟,尤其是数学这样要求精准的科目上,仍然需要继续训练。不过,我们依然看好大模型的未来,他们在教育领域的应用也是必然。
( R8 t7 ]/ |# ]0 ]01
, k7 w0 l3 Z6 a3 f" W2 w " 作为出卷人 ":题目正常、不算偏怪难! J  ?/ I6 y3 \4 f( a$ F8 s+ a

7 p4 F' j. }* Q" l万万没想到,在出题上双方就迥然不同。以下是双方给出的题目:
7 \. e) ^8 c; v+ B+ _
6 g; O1 M# c+ d" N4 B
( O5 U0 T- s; B# F; G3 X) a. I( K- {0 w& b9 u

1 l2 X+ s, x! `6 G3 K3 K
# W4 F4 a% J3 g# o7 j点评:文心一言每道给出了 A、B 两套题,通义千问按要求给出了 5 道题。我们给了文心一言两次机会,它依然出了 "A、B 卷 ",有些看不懂 [ 挠头 ] ……我们最后从每道题中选择了一道题,除了第 4 题外,其他题目都选择了 A 题目。% {( _/ L7 _) T7 ]. A' q
对于这 5 道题目,通义千问看起来更灵活,也更有针对性,更像一个 " 出卷人 "。比如,第 3 题,出一道作文题目,跟通义千问的题目就非常像高考热门命题方向,是跟科技与人文相关的。从出题难度上来看,双方出的都比较偏简单。比如翻译题目,双方出的题目看起来都不像高中的英语题目。" S& S  N) K# A! M
来看他们下面的作答情况——
9 T" J: f' m, f+ o8 M* l$ [02
3 F1 c- q7 E0 u翻译题目
( [! _, n2 m( y' k第一题英文翻译,文心一言的题目,是让把英文翻译成汉语:" R/ }6 ]9 f% Y) m0 Y2 B

2 L0 Q0 s; g) w. s" V7 u4 \% c9 ?1 |$ N
& I* d- D# K8 I$ N% C7 P0 F
6 z! l+ P& x: v: M: g( I

( J1 {" S2 V# s7 s( B$ I7 I2 m点评:这个题目两个都翻译的大同小异,通义千问的会更具体。可能因为题目是文心一言出的,所以它直接翻译成了汉语。而通义千问会问是 " 翻译成哪门语言 ",考虑得更周到一些。7 m4 b+ m7 L$ `5 _* D9 ?& Y( P
来看通义千问出的这道翻译题目:) G* C5 H4 I$ c9 _9 v2 z8 ~

1 x' M* e. Z/ c* ^# {3 X; K' |8 g. C" P! \; v0 L% s
1 E: n# L  `  ^' {$ P. P2 @
( C$ a8 m6 c7 g, F! M" X
点评:文心一言翻译的是 " 请问我怎么读这个词?" ,通义千问翻译的是 " 你能告诉我这个词是什么意思吗?" 文心一言的翻译更准确一些。通义千问自己出的题却没有答好,有点匪夷所思。) a5 i- H$ d1 P7 g4 |8 x6 z6 j) D
要么跟通义千问换一个问法吧,回答如下:8 z# Z* ]% t/ _# I

$ _! Z6 a: V7 Q* c8 P8 _6 Z# I6 \' n0 ]0 u$ G
. ?3 _# e( F: ]0 ^2 v8 A! L% l
越来越离谱了。。, j3 P4 e4 p$ {3 |
% j+ z/ H3 s, j- Y; |# k: H" Y

( I' h; k) i* v/ Q' F4 g: I
  O. V+ K; ?# R3 h  m: N( K9 A4 k' F$ F& {& v. ]5 \: ?. S
/ ^8 L' m& |  g8 g1 V
通义千问多轮对话的能力堪忧……
5 U! ?* ^# g, a& y, d9 `03
$ _3 H$ u) B2 V+ s. A数学题目
  c5 ^: x3 W0 b( ?来看初中的数学题:- h( T3 W. G% P$ I! f0 G& G
3 t* t# Q' ], p: P

2 w8 w, e8 e) ^" L. T2 t9 q; k7 U1 s8 v, u* ]

: x3 R& M! ?/ e( D( ]
+ H( N3 j8 l8 ~; U4 e. E' @点评:又一次匪夷所思,这次轮到文心一言出的题目自己也做错了。这道题目是分数相乘的结果,文心一言理解成了除法。即便理解成除法,最后也不应该等于 6。不知道这个结果怎么来的,迷之尴尬。通义千问理解对了,最后是 1/8,即 0.125,这是一个确定的值,不明白为什么最后它写的是 " 约等于 " 号,不知道是因为不自信,还是因为马虎写错了?
$ @  [1 B  `- B! U这次二者相同的地方在:都没有给出解题步骤,也没有给出解释。1 }, |9 J5 Z: T1 n) j& M. ?
通义千问出的初中数学题目:
0 C% I; h/ _7 |3 f. V; G$ ]7 [% T  A  m3 d  k8 a3 v% t5 u. a

  _4 m, i1 d9 D, a( ?9 d1 _4 [5 X/ q& h7 B9 y

! d0 t- @( {; e" t8 l/ t! Z
/ N' z4 u0 _' u点评:让文心一言回答了两次,都是 x:9,y:0,文心一言可能连正三角形是什么都不知道。这个题目通义千问回答地非常清楚,给出了完整的解题过程,结果也是对的。( a8 |, P- i" z
有点不死心,再次问了文心一言:- s  j: s% x  }- P$ O6 a( `$ J8 V

6 g, @* |. ?% @0 i- h( z0 W; X" E
9 N# Y& l+ T& G9 i* h+ E9 p/ L8 b, ^% }
我们发现,文心一言其实知道正三角形是什么,但是,它就是解不对题目,第三遍依然错误。
) r/ i# x: c" K1 T4 t还是不甘心,继续跟文心一言对话,想着让它让画一个正三角形的图吧,如下:
0 G5 x. d' E8 j
$ [* E, H4 T$ S, V/ c
2 ^1 Q- m! y0 j2 L  w3 `, J2 \7 Q# D  Y! B1 o* L' V
这……好吧 o ( ╥﹏╥ ) o,文生图的能力还得加油啊 ~~( t' P) o1 p- K; j  m, r
04
% U& O5 _4 L& q3 e6 E写作题目1 |% U2 O5 i- h* _- ^- y8 B. U
来看文心一言出的写作题目,双方的作答情况:' C1 A( V3 p( a) V

4 s. q1 p3 q+ {0 I
( E7 h1 c" q6 t: w) `7 G
1 [8 @  X5 _) z2 p# a
% Q2 G- O4 o0 v1 b9 X: O, f  H# t' t9 J# Z: l
点评:从题目来说,这道题让人想到央视 2012 年的采访," 你幸福吗?" 这道题目看似简单,实则有一定难度,很容易落入俗套,很难脱颖而出。
$ ]3 D, h# ?/ E: [& M2 [( _: Z再看两者的小作文,第一句话居然神同步了。从内容来看,二者结构也基本相同,均是从各个角度阐述 " 幸福 ",不过,文心一言更偏重个人层面的感受,而通义千问涉及到社会层面以及与他人的关系。整体来看,不分伯仲。大家觉得呢?& ?, ~$ D2 O. W7 e$ W! O& P
来看通义千问出的作文题目,双方的作答情况:0 I" r) x# E# T6 ?  z3 h7 U
3 m. V- p, d! g$ f' Z
( J7 y( _" K7 ]- x; [
8 E. Q$ Y  \+ I/ G0 c

+ N) W% C! k" i3 A$ F4 x4 @8 B( i0 F  V# w1 \* h6 k  t- \

$ m/ b% ?1 t  @) {$ n) V  |
0 ?% ]& {; J0 ]* a4 _0 F
/ t& j* ~& _  u% j% e# v  j, {( a9 `, s9 \

& L8 w, X) f! k/ b' v+ D, N/ d7 c2 o, `
点评:从题目来看,通义千问出的这个题目非常像高考作文,很有出卷人的视角,是科技创新的方向。
4 e7 n" k3 e1 O+ w- `/ u4 c- T对于两者的写作,文心一言对这道题目似乎有很多思考,但直接按框架写作的,有点像论文,读起来有些生硬。通义千问的这篇虽然篇幅不长,但看起来更像一篇议论文。. d# n% d5 l" N, L  h
05
! ~8 ]2 P; p' [3 F3 B; d- k, C! h' c代码生成
6 s% u) }- M) q5 s+ ^& b( R来看代码生成的相关题目:" D6 t( q& u. |" \" n7 q
: C  E( c4 [1 h0 }8 j

' z+ i8 Y8 \( b: d( ~. w) X2 C) l( w, V' k  N. Z4 f% N
, G* `) W& Y/ l

% L4 e; Q: u* H  C点评:文科生表示看不懂,拉来一名程序员帮忙看了看,他表示:" 核心段是一样的,不过,文心一言没有声明变量。" 懂编程的老师们可以留言点评一下 ~~
* K2 L, a6 q; p再来看通义千问出的这道代码生成题目,二者作答情况:
8 W  o! }& d0 R$ L# v2 j" Q# A6 R1 t- ^  p' m

: ?' X& l" ?( A1 l& J
6 v! Y' b  g/ U2 ]4 R
/ r) E$ a/ E4 W" I6 T8 T! _: R; y
点评:同样来自程序员的评价:" 这两个对题目的理解都不一样,所以写的也不一样。文心一言的是生产随机字符串,26 个字母随意拼;通义千问的是随机的英文单词,我感觉这个更切合题目。"% v/ W) W0 f. X9 w( }2 U; }4 W
06
6 F  y- s( u( A0 n4 z( W; S0 p, Z心理辅导; P2 |! m, {/ f7 d9 E' `/ F
最后是心理辅导方面的题目,文心一言出的题目,看看双方的作答:- W1 W: M4 T- ?7 P
( J; l& o( J- y6 N: e3 Q# v+ S
8 g8 o9 [+ v, f! n3 h4 N1 G/ \
& L( Y. c5 U( |; l( {

  N# C$ v3 A' i9 @4 {/ u4 e( i$ u8 G! R4 C
点评:从题目来看,文心一言出的这个题目比较宽泛,比如情绪有很多种,是什么样的情绪呢?文心一言并没有说明白。在作答方面,二者在心理方面的辅导大同小异,且都是列点式的回答。两个都给出了管理情绪的具体方法,比如都提到了冥想。
6 H. H' l% f; G3 X: d最后一道题目,由通义千问提出的问题,看看双方的解答:
) d/ x% c* N- ~; F' U6 `
$ |& H' q2 P4 v# ?" E( _& T& |' ?7 O- ], z& Y1 _# z+ m2 F" n
/ L' C+ M( w# x- j) v3 ^
% J, T' v* i. }9 ]' z: W/ |
0 K6 x: c- {- r  p  f- _  p% l+ t
, U7 B7 y$ F+ _0 S! _+ J
: L, q: s) n' {0 b6 G

( ]! l8 f$ M6 V: Z: @) B) T6 }; Y' ]# v; _& z- S
点评:首先先看题目,通义千问的问题非常具体,很有针对性。再看作答,两者给出的心理解决方案都非常具体,文心一言还给出了 " 焦虑和压力 " 形成的原因。二者给出了不同的心理辅导方案,通义千问的会更多元一些。相同的是:二者都提到了学会调节情绪,还都提供了相应的理论参考。8 g5 i; P) T5 C/ R+ ^- ~5 R, L
07
7 W$ N+ p+ G( Z总结
5 P$ `# \2 n. V0 k; D+ {在出题方面,通义千问像一个出题高手,针对性较强,文心一言出了 A、B 两套题,可能想提供更多的方案,但有的题目比较宽泛。( u# u, |# E+ [* n5 m3 F' }7 P
针对题目解答,在翻译类题目上,二者不相上下,文心一言可能略胜一筹。2 b  A4 L9 N+ ^& p% N' Z. ^3 n
在数学类题目上,看起来通义千问更好一些,有的还给出了清晰的解题过程,文心一言还需要提升。6 J4 B: \& Q" |3 ]  l( h
在作文题目上,二者各有千秋,但都还是有机器回答的痕迹。+ m& Z+ V% @. t" P* _/ C
在代码生成题目上,都有这方面的能力,可能文心一言需要更理解题目。6 c. C% G2 I+ I% z; u
在心理辅导方面,二者都比较详尽,对学生和家长来说有一定的指导意义。
+ e3 _- ]+ Y- w从整体作答风格来看,文心一言偏稳重,通义千问更灵活一点。
0 T$ {, r0 p3 b1 E# u. q2 O从答题速度上来看,通义千问的速度更快一些。比如先给文心一言输入问题,再给通义千问输入问题,最后先作答结束的是通义千问,文心一言似乎会有一个 " 思考 " 的过程。) t+ m0 u" b+ @- e/ ]6 V2 Y
从多轮对话能力来看,两者都有一定的多轮对话能力,都可能会根据反复对话有所校正,文心一言可能略好点,通义千问有时候比较疯魔。0 R2 |+ v6 ?7 N# r' ]5 }
文生图方面,文心一言还需要提升,差距比较大,通义千问还没有上线文生图。
5 x/ C5 H6 P$ }3 [2 B, U+ M这次评测的均为学习或教育方面的问题,题目不多,或许评测有偏颇。整体而言,完全用我们目前的大模型来辅导学习,尚存距离。国内的大模型还在路上,需要给他们成长的时间。正如 ChatGPT 一样,它也经历了从胡乱解题,到逐渐靠近正确答案,尤其是 GPT-4,在专业和学术上接近人类水平。
* @- c+ u2 ]7 C盖茨说 "AI 聊天机器人将 18 个月内可以辅导作业 ",指的应该是国外的大模型,国内的或许还需要更长时间。
' m  p% M% x6 a9 b1 N7 ~1 S0 @  GEND
& E9 F" `3 u6 D4 @本文作者:王上

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

帖子地址: 

梦想之都-俊月星空 优酷自频道欢迎您 http://i.youku.com/zhaojun917
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|梦想之都-俊月星空 ( 粤ICP备18056059号 )|网站地图

GMT+8, 2025-11-9 13:11 , Processed in 0.047879 second(s), 22 queries .

Powered by Mxzdjyxk! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表