京东6.18大促主会场领京享红包更优惠

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 773|回复: 0

文心一言 VS 通义千问,谁更懂学习?

[复制链接]

1586

主题

739

回帖

6687

积分

论坛元老

积分
6687
发表于 2023-4-24 18:38:40 | 显示全部楼层 |阅读模式 来自 安徽
, f; O/ f0 T9 F: r' ~% ]
4 Y8 V$ X- k( j% W+ e% D! F
国内的大模型还在路上,需要给他们成长的时间。& |- p" F7 {; n* l9 ~! z
来源|多知网
; R5 ~" `( s- G; N作者 |王上, p# B' x1 b, a7 e
图片来源 | 言之画; }0 f3 s- K; X( J; H
比尔 · 盖茨上周二在圣地亚哥举行的 ASU+GSV 峰会上发表主旨演讲时表示:"AI 聊天机器人将 18 个月内,可以做到教孩子阅读,辅导家庭作业。"
/ l! c7 x/ Y  E1 k3 ^今年 3 月和 4 月,百度和阿里巴巴分别推出了自己的大模型。目前来看,百度的文心一言和阿里的通义千问均可以多轮对话、文本创作等。  R* N& ^5 m- V2 U! q
未来,大模型将会朝着多模态 ( 文本、图像、视频、音频等 ) 继续发展,也将越来越逼近人类的智慧。
+ w8 a0 M8 L& L$ j8 d) [' B& Q在不少专家学者看来,如果大模型足够成熟,将改变教育体系的核心要素,包括教育目标、知识获取方式等。所以,这波 AI 技术的爆发非常值得教育领域关注。. w& q- G( ], v* z2 v2 C+ h
那么现在,各家的大模型进展到什么程度了?是否可以在学习或者教育领域直接利用呢?我们让百度的文心一言和阿里的通义千问 PK 了一下。
! x; W% a1 E0 g8 _1 @. ^; ~我们让文心一言和通义千问在高中英语翻译、初中数学题目、高中中文写作、代码生成、青少年心理辅导方向各出了一道题目,双方针对所有问题各自回答一遍,这样就总共是 10 道题目。
; S& |/ i5 V% L4 u6 A4 J" Q通过评测,我们看到了大模型在学习或教育类的问题上暂未成熟,尤其是数学这样要求精准的科目上,仍然需要继续训练。不过,我们依然看好大模型的未来,他们在教育领域的应用也是必然。
& _( L3 X. d; w01
+ k* l# W4 ^9 [ " 作为出卷人 ":题目正常、不算偏怪难
' J& L: s5 K: G* ]5 g. M- C9 F+ |  i- h
万万没想到,在出题上双方就迥然不同。以下是双方给出的题目:- ]+ v) S. x9 W

; B: G# {- c0 I9 @' N+ {5 j) G- y7 A8 v1 h& A' v( P, M
/ ~% [" p) F: f1 L

8 v& }* |' V7 g+ L4 }0 q- G
1 |1 E( O, @4 ~+ h8 A1 z2 Z8 Q点评:文心一言每道给出了 A、B 两套题,通义千问按要求给出了 5 道题。我们给了文心一言两次机会,它依然出了 "A、B 卷 ",有些看不懂 [ 挠头 ] ……我们最后从每道题中选择了一道题,除了第 4 题外,其他题目都选择了 A 题目。
7 `0 t! a+ x4 r$ x3 b& A1 T对于这 5 道题目,通义千问看起来更灵活,也更有针对性,更像一个 " 出卷人 "。比如,第 3 题,出一道作文题目,跟通义千问的题目就非常像高考热门命题方向,是跟科技与人文相关的。从出题难度上来看,双方出的都比较偏简单。比如翻译题目,双方出的题目看起来都不像高中的英语题目。
( l0 Y9 k# o5 e. e" J来看他们下面的作答情况——
  Z+ {2 p2 h1 P# [$ `( x: Y& m02# o! ~$ }$ p) J% }  a# D
翻译题目
6 T- k  m3 v4 ^6 j' H第一题英文翻译,文心一言的题目,是让把英文翻译成汉语:
5 E  n7 `% [# K- y7 c7 w; V# E$ m) q9 i) C6 g+ O/ Q

+ v: c, s) R4 u
# q) @5 `% ^) ~' i8 e
. ?7 g6 I: G( P+ \  t
# @% M+ q5 e8 H3 ~' }  Q) m点评:这个题目两个都翻译的大同小异,通义千问的会更具体。可能因为题目是文心一言出的,所以它直接翻译成了汉语。而通义千问会问是 " 翻译成哪门语言 ",考虑得更周到一些。
2 ]$ x; ~& s& ?9 z来看通义千问出的这道翻译题目:
: ?- b/ g% U+ t0 X: V
( A/ z8 I" i7 X- N; y3 r) E% ]* S2 E  I  i  A; P1 S" \& U' F
+ K6 m8 @/ B, J( v& C$ \% B1 u
! E+ g( x% `3 r. Z8 o* S
点评:文心一言翻译的是 " 请问我怎么读这个词?" ,通义千问翻译的是 " 你能告诉我这个词是什么意思吗?" 文心一言的翻译更准确一些。通义千问自己出的题却没有答好,有点匪夷所思。
/ G  M5 |+ }% c: N- X3 `要么跟通义千问换一个问法吧,回答如下:( @4 G' z+ c! `3 w2 d' O

6 F3 A( r8 b/ D
6 U3 I8 d3 H5 h5 d
% ~+ W4 V- C/ ~, o越来越离谱了。。$ Q, N# `# h9 w1 Y4 A& A5 }
' G: i+ y8 i' O8 G3 e% u$ u$ k: N
. x5 N6 Q) I$ Y+ ^

/ g  C- \- L5 A( q4 G
; z* T5 m( }( ^5 }$ }' i3 Q7 D8 x6 j; B1 b3 L7 I3 H
通义千问多轮对话的能力堪忧……
/ G8 K" E# T. z03
% Q3 F5 S+ k9 H! a* k+ x5 w4 p数学题目
/ G% u3 ?6 s$ a# Q来看初中的数学题:
1 Q2 U! s. [; j1 X
( B2 X+ c1 D, t4 g6 N
3 v4 J$ B$ G5 U' F$ _/ f/ |1 C8 r) ^' }3 l0 L; c
: g1 Y+ N. S4 T
7 U3 `9 Y8 a. e4 H9 z; M5 j) H5 p+ T: ~
点评:又一次匪夷所思,这次轮到文心一言出的题目自己也做错了。这道题目是分数相乘的结果,文心一言理解成了除法。即便理解成除法,最后也不应该等于 6。不知道这个结果怎么来的,迷之尴尬。通义千问理解对了,最后是 1/8,即 0.125,这是一个确定的值,不明白为什么最后它写的是 " 约等于 " 号,不知道是因为不自信,还是因为马虎写错了?8 g# v6 v6 L2 F% ^3 Z, O, w& U
这次二者相同的地方在:都没有给出解题步骤,也没有给出解释。
8 s/ l& G8 T; E' _& a通义千问出的初中数学题目:
$ U8 _/ a: g* W+ L/ }5 ]# s2 s, R0 L. Y' N7 a3 J. T% t. m
. L6 y* A) J% n1 V3 `, I
6 r% M' W1 M" ]2 o; D3 w: S
$ Z; l- ?" O$ ?: U3 v
2 R* C: s1 y; u$ u% e1 }
点评:让文心一言回答了两次,都是 x:9,y:0,文心一言可能连正三角形是什么都不知道。这个题目通义千问回答地非常清楚,给出了完整的解题过程,结果也是对的。
" |0 l5 z* U/ A/ |8 Y0 D; O有点不死心,再次问了文心一言:
' D' s. y& i3 `9 |) c: l; @7 f0 ~- m" a' u' d) W& r

! z; S5 B; p4 D9 P# n( d! n
2 J, e! R7 w  _- o我们发现,文心一言其实知道正三角形是什么,但是,它就是解不对题目,第三遍依然错误。
  H- l: |$ L3 D& i5 i, g) V还是不甘心,继续跟文心一言对话,想着让它让画一个正三角形的图吧,如下:% W3 g3 |8 w6 l: X+ u9 e

* o! Q( j; d" r6 z" K1 ^
4 }* u8 ^/ K. n0 F# x! j- B+ H5 g% u& h/ g* u+ P, P
这……好吧 o ( ╥﹏╥ ) o,文生图的能力还得加油啊 ~~
+ D. }3 m4 K3 P04# F% r" b% F; D
写作题目9 R7 n! ?1 y! t9 a4 E
来看文心一言出的写作题目,双方的作答情况:
% U4 m- s5 M# ?( i, v' T' ^8 _& i5 m! L; G. b& o# `
% U' n# R+ U4 p

+ P5 i  z. P! ]* N) ^" @+ `7 [3 Z) h2 B$ |; E- o

1 V$ B! c1 _3 T9 O0 j# h% J: U; ]7 V点评:从题目来说,这道题让人想到央视 2012 年的采访," 你幸福吗?" 这道题目看似简单,实则有一定难度,很容易落入俗套,很难脱颖而出。
  d9 l& Z; U1 B; m3 D* X+ e$ ~/ @再看两者的小作文,第一句话居然神同步了。从内容来看,二者结构也基本相同,均是从各个角度阐述 " 幸福 ",不过,文心一言更偏重个人层面的感受,而通义千问涉及到社会层面以及与他人的关系。整体来看,不分伯仲。大家觉得呢?
1 A. f2 z- N$ W来看通义千问出的作文题目,双方的作答情况:. K; ]5 C1 R4 O5 J8 s6 F( u
9 T$ J2 p. e) i6 P2 W; r
3 w" o: A7 h5 s7 F

+ s/ Q' S! T( @" h+ Z% o; _# D. ^5 j* n8 D
# E# R5 h' p2 a: \7 I
! e% s2 K& q3 ~9 I0 ^

3 N! q2 t% [' Z; Q$ t% O6 J( C7 c; `" Z9 c
! S( M) v6 q) U/ E) R# K# Y, ^* g
. u% C+ }; I; O% K" o
, x9 S3 D, l: |2 z2 k3 C8 k
点评:从题目来看,通义千问出的这个题目非常像高考作文,很有出卷人的视角,是科技创新的方向。" c8 `* L- k3 ]6 f/ S/ e2 x+ B8 c& d
对于两者的写作,文心一言对这道题目似乎有很多思考,但直接按框架写作的,有点像论文,读起来有些生硬。通义千问的这篇虽然篇幅不长,但看起来更像一篇议论文。& k$ ?! d* M1 M- V3 P- V& P- t
05- m4 I  G$ I% L4 A  u
代码生成
3 c& d1 e0 c0 t% f. Q$ b来看代码生成的相关题目:
8 s5 t) h9 Q2 y; j: c' }- _. d& I& s) L  k8 j4 M
& c. U# w& z* z' |9 r* O! D8 A+ e5 \9 ?
: ?3 {4 Q+ F" ?( d% b

: ?+ M9 U" d6 j, U" c% t% n( g, I! G% G6 f+ u
点评:文科生表示看不懂,拉来一名程序员帮忙看了看,他表示:" 核心段是一样的,不过,文心一言没有声明变量。" 懂编程的老师们可以留言点评一下 ~~
- p' s1 }$ r* s: p- U5 ^再来看通义千问出的这道代码生成题目,二者作答情况:
3 d) G. p4 `# w
" j: M/ q: J3 k8 x* b+ Z/ T. P$ ?; c& }" q7 B

/ I) e' W5 _& X) h5 G/ `
; G: _' W4 c7 c8 S
6 r% K. d% _9 K" S4 d  E" u$ E点评:同样来自程序员的评价:" 这两个对题目的理解都不一样,所以写的也不一样。文心一言的是生产随机字符串,26 个字母随意拼;通义千问的是随机的英文单词,我感觉这个更切合题目。"# [# J; @, U* d4 w" r
06
  F- y8 h5 J  y& |# t/ d心理辅导
* @1 u$ i) j- g% v6 c/ }最后是心理辅导方面的题目,文心一言出的题目,看看双方的作答:/ K( a$ z1 k# W! Z
2 l' a! Z( e6 q& i
# G! y' @4 \3 r4 R5 @
5 m$ {( s6 E1 P( l

2 B, B9 E0 E# ~  ~; Z2 |- ?4 f
" x+ N' }  F' d+ l- G7 l  e0 ]7 r点评:从题目来看,文心一言出的这个题目比较宽泛,比如情绪有很多种,是什么样的情绪呢?文心一言并没有说明白。在作答方面,二者在心理方面的辅导大同小异,且都是列点式的回答。两个都给出了管理情绪的具体方法,比如都提到了冥想。
  W; u- T* D+ u2 n2 W最后一道题目,由通义千问提出的问题,看看双方的解答:
( D4 E( R, G, A$ G+ B! C# _# n5 a5 c7 i: r$ S+ k

9 E4 A) p" j, D, E
5 |2 Y0 h$ f& n/ _$ W5 T# q8 |0 m( C- D! V

" ]9 p5 G& C% K5 A/ C
/ p( ?5 t8 @1 e; d* Z. X( H. h  E8 H6 P/ O
  z! S: O7 a- m

& d  Q: W$ ]: c+ z+ R1 V点评:首先先看题目,通义千问的问题非常具体,很有针对性。再看作答,两者给出的心理解决方案都非常具体,文心一言还给出了 " 焦虑和压力 " 形成的原因。二者给出了不同的心理辅导方案,通义千问的会更多元一些。相同的是:二者都提到了学会调节情绪,还都提供了相应的理论参考。
0 `8 e% S. s: N9 g! B07
  }( r! i. ^4 Z% E5 _7 }总结
" ?8 x4 c( U' ]& |% ?! @+ R9 z在出题方面,通义千问像一个出题高手,针对性较强,文心一言出了 A、B 两套题,可能想提供更多的方案,但有的题目比较宽泛。3 R+ j& F* }/ ~' x
针对题目解答,在翻译类题目上,二者不相上下,文心一言可能略胜一筹。6 q! m5 q. m% y0 b2 v
在数学类题目上,看起来通义千问更好一些,有的还给出了清晰的解题过程,文心一言还需要提升。) b9 h, h) O9 ]  B) t5 @) x# A
在作文题目上,二者各有千秋,但都还是有机器回答的痕迹。! V1 Z% q  @( o
在代码生成题目上,都有这方面的能力,可能文心一言需要更理解题目。
# l6 e( W4 n% ~. k6 N在心理辅导方面,二者都比较详尽,对学生和家长来说有一定的指导意义。' s' P% Y7 `: z9 J0 ]5 n0 [; g6 `
从整体作答风格来看,文心一言偏稳重,通义千问更灵活一点。# x+ g& X0 E$ E6 R
从答题速度上来看,通义千问的速度更快一些。比如先给文心一言输入问题,再给通义千问输入问题,最后先作答结束的是通义千问,文心一言似乎会有一个 " 思考 " 的过程。) E! Z0 {$ Y5 o$ f7 R# C1 A
从多轮对话能力来看,两者都有一定的多轮对话能力,都可能会根据反复对话有所校正,文心一言可能略好点,通义千问有时候比较疯魔。
7 I. Z$ }$ E3 y文生图方面,文心一言还需要提升,差距比较大,通义千问还没有上线文生图。' t* N; z8 ]" f) a7 }
这次评测的均为学习或教育方面的问题,题目不多,或许评测有偏颇。整体而言,完全用我们目前的大模型来辅导学习,尚存距离。国内的大模型还在路上,需要给他们成长的时间。正如 ChatGPT 一样,它也经历了从胡乱解题,到逐渐靠近正确答案,尤其是 GPT-4,在专业和学术上接近人类水平。5 `" a- Y. t  x; H' N
盖茨说 "AI 聊天机器人将 18 个月内可以辅导作业 ",指的应该是国外的大模型,国内的或许还需要更长时间。: T# t5 B, W# O) p" h( @
END
/ x3 y, {: U" u7 V( A1 o本文作者:王上

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

帖子地址: 

梦想之都-俊月星空 优酷自频道欢迎您 http://i.youku.com/zhaojun917
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|梦想之都-俊月星空 ( 粤ICP备18056059号 )|网站地图

GMT+8, 2026-2-6 16:12 , Processed in 0.073309 second(s), 24 queries .

Powered by Mxzdjyxk! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表