京东6.18大促主会场领京享红包更优惠

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 733|回复: 0

文心一言 VS 通义千问,谁更懂学习?

[复制链接]

1586

主题

739

回帖

6687

积分

论坛元老

积分
6687
发表于 2023-4-24 18:38:40 | 显示全部楼层 |阅读模式 来自 安徽

' d5 S! w3 z7 g: V9 d" _5 s" k# H$ L. A' W6 {: D! ?
国内的大模型还在路上,需要给他们成长的时间。# f5 Z- H& L7 _- `1 [; ]. y
来源|多知网
$ ^1 G' x% T9 U4 J作者 |王上
4 s/ H# f/ A8 F* X* e- N图片来源 | 言之画$ J/ d8 i( n; `6 P
比尔 · 盖茨上周二在圣地亚哥举行的 ASU+GSV 峰会上发表主旨演讲时表示:"AI 聊天机器人将 18 个月内,可以做到教孩子阅读,辅导家庭作业。"& o) u( ]+ u+ C3 [, \9 `  @6 v
今年 3 月和 4 月,百度和阿里巴巴分别推出了自己的大模型。目前来看,百度的文心一言和阿里的通义千问均可以多轮对话、文本创作等。' {# T4 C- |0 x4 h
未来,大模型将会朝着多模态 ( 文本、图像、视频、音频等 ) 继续发展,也将越来越逼近人类的智慧。; ]/ G: ]3 o- G% u
在不少专家学者看来,如果大模型足够成熟,将改变教育体系的核心要素,包括教育目标、知识获取方式等。所以,这波 AI 技术的爆发非常值得教育领域关注。
: p/ z, q% }! o% i+ e! L; G( Z+ k那么现在,各家的大模型进展到什么程度了?是否可以在学习或者教育领域直接利用呢?我们让百度的文心一言和阿里的通义千问 PK 了一下。
+ N+ P/ l: M. A! c4 J9 I; w/ B$ [我们让文心一言和通义千问在高中英语翻译、初中数学题目、高中中文写作、代码生成、青少年心理辅导方向各出了一道题目,双方针对所有问题各自回答一遍,这样就总共是 10 道题目。
& w3 d; Z3 o4 |1 C. W通过评测,我们看到了大模型在学习或教育类的问题上暂未成熟,尤其是数学这样要求精准的科目上,仍然需要继续训练。不过,我们依然看好大模型的未来,他们在教育领域的应用也是必然。1 D8 n! E) o- Y: t3 K: a( [$ t# j8 z
01% N* x: B2 q; ]2 v8 D' J
" 作为出卷人 ":题目正常、不算偏怪难! {1 D3 n2 O! j. x4 E4 q

' c7 j/ R. }8 O7 o万万没想到,在出题上双方就迥然不同。以下是双方给出的题目:5 k& B8 ~* P0 y2 ^+ l% n) C* T. f
( S" `/ P$ h$ j" z

( p* @$ B6 J+ w' z# \- h
% J- d: t9 s% G( Y% F( y8 r; u2 W  a" ~. s: m/ q

+ R2 N2 X$ e- X% h1 C- P" F) m8 V* P点评:文心一言每道给出了 A、B 两套题,通义千问按要求给出了 5 道题。我们给了文心一言两次机会,它依然出了 "A、B 卷 ",有些看不懂 [ 挠头 ] ……我们最后从每道题中选择了一道题,除了第 4 题外,其他题目都选择了 A 题目。
, Q* ]% o3 L* \" E8 c" {1 {对于这 5 道题目,通义千问看起来更灵活,也更有针对性,更像一个 " 出卷人 "。比如,第 3 题,出一道作文题目,跟通义千问的题目就非常像高考热门命题方向,是跟科技与人文相关的。从出题难度上来看,双方出的都比较偏简单。比如翻译题目,双方出的题目看起来都不像高中的英语题目。
6 M; K- t% p) C3 |! z( b& |来看他们下面的作答情况——
5 ?2 \9 R. Y0 b02
  o( c" f) @. i4 t0 E$ m2 o# x翻译题目1 r$ k% b' ^! f3 O+ W
第一题英文翻译,文心一言的题目,是让把英文翻译成汉语:4 W( q" K) T- e$ m: O
9 s9 |  \3 b/ D

9 z% t. U8 f& _0 C. a) [+ ^/ t2 t- O; p
! z6 k  j9 m1 _) Y6 x

; `& ?6 T- w: x  h点评:这个题目两个都翻译的大同小异,通义千问的会更具体。可能因为题目是文心一言出的,所以它直接翻译成了汉语。而通义千问会问是 " 翻译成哪门语言 ",考虑得更周到一些。! h; J0 ^/ w' V' R( _+ X* {7 ?
来看通义千问出的这道翻译题目:/ J+ O" ^) l% M1 _; L

, M  }- S/ T2 {. i7 E  z% @  b
9 U: s4 j5 c3 F$ ?1 D5 _
8 F) g# i4 V9 a; k/ d* k3 e2 G9 }3 I4 Q) D) j
点评:文心一言翻译的是 " 请问我怎么读这个词?" ,通义千问翻译的是 " 你能告诉我这个词是什么意思吗?" 文心一言的翻译更准确一些。通义千问自己出的题却没有答好,有点匪夷所思。
& s1 z& y3 O% n+ |- N1 L: r5 T要么跟通义千问换一个问法吧,回答如下:& T, o% T' W% l' R& q
% \8 v9 q- Y$ Z* l
& d. L' C; p6 [; O. r4 v: P9 |
9 e* \: \* @# c$ a
越来越离谱了。。
" J8 N4 {2 U. G
- T/ q4 W- }5 Z2 Q" Q5 f1 b$ F/ Y2 W5 n, ^  u. \5 {% [. J

, e+ e) j0 d( ]. c3 M2 s- N" l
8 }4 b$ u) z  _2 \- u9 m
( g. Q- g+ d- q) a* }, O通义千问多轮对话的能力堪忧……
, \/ b: Z, o( O6 [3 y( c, f03; D$ V5 B! Q6 h: X/ w# \
数学题目
% u% H6 g' u5 S4 ]4 ]来看初中的数学题:
  k- D" U' L9 p0 S5 F% Y: y0 y- x
4 r  q1 P4 |0 }6 D, |: g
1 U# R2 T7 ]3 s- ?# [/ \8 _1 Q- k
0 `1 @+ c% W# l! j! [0 c, U. n$ C
! ?; a# Y" M& q
# B1 k0 O; i1 D7 c" h点评:又一次匪夷所思,这次轮到文心一言出的题目自己也做错了。这道题目是分数相乘的结果,文心一言理解成了除法。即便理解成除法,最后也不应该等于 6。不知道这个结果怎么来的,迷之尴尬。通义千问理解对了,最后是 1/8,即 0.125,这是一个确定的值,不明白为什么最后它写的是 " 约等于 " 号,不知道是因为不自信,还是因为马虎写错了?
) z6 s1 g9 j3 X+ D2 W& J9 }8 |4 P这次二者相同的地方在:都没有给出解题步骤,也没有给出解释。: U$ ]8 z  ^( o6 w. O, _# p
通义千问出的初中数学题目:$ {6 v4 l! X( z" J; T! ?# I
" ~2 T% R6 i3 Z9 I8 |

1 q2 u+ F/ G5 @6 W$ n8 x+ x" ?1 a  S/ v

8 U% [6 [- m# u% e( S$ a7 F) p3 A; n$ p8 r) P3 `; K3 g
点评:让文心一言回答了两次,都是 x:9,y:0,文心一言可能连正三角形是什么都不知道。这个题目通义千问回答地非常清楚,给出了完整的解题过程,结果也是对的。* j$ ^8 m3 l; p. _8 B
有点不死心,再次问了文心一言:8 K. C* j5 q! ]$ q3 _

' a* M! u8 r$ X7 ^# c; ]- s- ?7 X- ~: i9 ?, U: K: \2 S, Y6 V
2 ]! u0 L, W9 c: ~# Q; _) U- X% i
我们发现,文心一言其实知道正三角形是什么,但是,它就是解不对题目,第三遍依然错误。( j2 u, W& |/ ^
还是不甘心,继续跟文心一言对话,想着让它让画一个正三角形的图吧,如下:
/ y& k8 h5 i9 B9 V& N- o
% x7 l  A! P' t$ R7 V
+ k* c  n+ M2 m9 \$ [* F% p+ |" H
' J" q) }: i) c5 x4 Z这……好吧 o ( ╥﹏╥ ) o,文生图的能力还得加油啊 ~~
1 v& S/ E1 C, k! Y) v04/ b$ M' V* {% ?/ _+ d
写作题目& G6 r. s( ~" P1 w5 v7 S* x
来看文心一言出的写作题目,双方的作答情况:
4 c5 K) F- H$ a0 \: T+ U8 V, a
; A5 k4 p4 X. Y( ?( J
! I/ X! s- N: k. {
/ H7 k6 K2 }2 H" K" P1 I: H
1 a+ t7 }  q8 F% ~5 X3 g1 n8 ~
8 @0 d( c( [( T# @/ A+ D点评:从题目来说,这道题让人想到央视 2012 年的采访," 你幸福吗?" 这道题目看似简单,实则有一定难度,很容易落入俗套,很难脱颖而出。
$ [- b7 o  J5 u, J: C) q再看两者的小作文,第一句话居然神同步了。从内容来看,二者结构也基本相同,均是从各个角度阐述 " 幸福 ",不过,文心一言更偏重个人层面的感受,而通义千问涉及到社会层面以及与他人的关系。整体来看,不分伯仲。大家觉得呢?) {3 _( J: I/ X& \# ?' |
来看通义千问出的作文题目,双方的作答情况:9 E0 K( m. S. R

# L/ S* s8 A$ q/ i
7 F! O; f9 g( E% y4 g* C6 p7 p+ Z' Y; B) [, i4 c8 q
2 E6 ]/ \. C$ ]2 f7 z/ l
7 z2 k; }- Y0 p; b4 s$ L- A

' L  x9 O0 Y% m  _8 X7 v  b" B! ^  v. X" q- A5 ~; x

- w% D" a3 j; D
4 T- V' _4 a- T8 ^* K
# w% C; t% Z* w, p: }7 Y1 }. d
  E9 f5 e6 n8 G2 S点评:从题目来看,通义千问出的这个题目非常像高考作文,很有出卷人的视角,是科技创新的方向。: d0 a2 S. b; g$ L
对于两者的写作,文心一言对这道题目似乎有很多思考,但直接按框架写作的,有点像论文,读起来有些生硬。通义千问的这篇虽然篇幅不长,但看起来更像一篇议论文。9 m3 ?! `; N( R6 W5 {; T
05% |, }( C5 i7 \) Q0 r
代码生成: R" T$ p8 E" \, \$ x$ G" R# F) T
来看代码生成的相关题目:
5 i* Y; l, P# R) U7 V2 j/ t: Y* W4 g# |: y% T8 Y' c, n

9 ?0 r+ {6 p; O$ r% s7 z' m% k1 W: Q2 @+ j

  Y0 `( r% _2 n6 ]  e6 \( H; V
' s4 ~, ?0 ?9 n* F7 T) A点评:文科生表示看不懂,拉来一名程序员帮忙看了看,他表示:" 核心段是一样的,不过,文心一言没有声明变量。" 懂编程的老师们可以留言点评一下 ~~
9 |% E5 }0 H5 |# A/ ^: f5 D再来看通义千问出的这道代码生成题目,二者作答情况:
; ]/ R' L$ a) B+ g$ Q; z9 H2 q/ O7 O& A( X* |
1 x. C8 l; b$ n) I" q* l9 v

$ o% K/ B: L% D8 Q" y! b' M& ^
( y2 `3 u2 A: Z$ [$ L% u$ `
; R+ k2 b7 D1 i6 T点评:同样来自程序员的评价:" 这两个对题目的理解都不一样,所以写的也不一样。文心一言的是生产随机字符串,26 个字母随意拼;通义千问的是随机的英文单词,我感觉这个更切合题目。"2 O, J2 H7 {/ n1 y: A
06- P7 j& O& w& a) L6 l5 q' b: S6 ?' L
心理辅导
+ t. O" f, K* }) w2 ]: j最后是心理辅导方面的题目,文心一言出的题目,看看双方的作答:
: B& r' y0 h3 E5 n" \9 o$ A6 N. `! `7 L+ d5 @( f
, u- x6 g% Z$ e1 [6 m% {

! ], a, v2 }7 W+ t) p) b$ q( {+ g1 s2 l7 b
% k- x/ V2 w6 B& [9 D- U3 \7 A
点评:从题目来看,文心一言出的这个题目比较宽泛,比如情绪有很多种,是什么样的情绪呢?文心一言并没有说明白。在作答方面,二者在心理方面的辅导大同小异,且都是列点式的回答。两个都给出了管理情绪的具体方法,比如都提到了冥想。2 q6 v  X2 d4 N! s' B
最后一道题目,由通义千问提出的问题,看看双方的解答:
/ ^4 a% O+ F$ T: d  d2 h5 F
0 P% w0 t4 j) x0 \) a6 K. Z
2 n4 g' t$ l- N% Q# u$ f$ {* K/ Z* R1 ]
: n( {0 [# d1 M/ ^

. |+ i  q: P' [" B8 o) e( O
1 V0 \, Y" [( O% `" e- M, y  N8 Q+ X) B

2 q# x9 K0 H! Y3 u4 C, [6 U5 P7 i% }2 a* K
点评:首先先看题目,通义千问的问题非常具体,很有针对性。再看作答,两者给出的心理解决方案都非常具体,文心一言还给出了 " 焦虑和压力 " 形成的原因。二者给出了不同的心理辅导方案,通义千问的会更多元一些。相同的是:二者都提到了学会调节情绪,还都提供了相应的理论参考。: ?0 t  a5 _! [* S* S
07
2 O* c; i9 a) ~9 y总结
0 b1 m5 b$ }: \7 A在出题方面,通义千问像一个出题高手,针对性较强,文心一言出了 A、B 两套题,可能想提供更多的方案,但有的题目比较宽泛。! ~3 _" ]+ K8 w3 |8 [5 \
针对题目解答,在翻译类题目上,二者不相上下,文心一言可能略胜一筹。
# a0 }4 Q$ k, G7 O8 Y在数学类题目上,看起来通义千问更好一些,有的还给出了清晰的解题过程,文心一言还需要提升。
/ n  M: M5 U. \! e$ l, t0 ~/ p% T在作文题目上,二者各有千秋,但都还是有机器回答的痕迹。
6 D! v- |1 z0 f+ d" N在代码生成题目上,都有这方面的能力,可能文心一言需要更理解题目。
% P' F. _+ ]! u7 f3 |在心理辅导方面,二者都比较详尽,对学生和家长来说有一定的指导意义。
! h3 [$ M0 o1 D0 R. w: \2 I从整体作答风格来看,文心一言偏稳重,通义千问更灵活一点。" Y* V; k  e% }' |
从答题速度上来看,通义千问的速度更快一些。比如先给文心一言输入问题,再给通义千问输入问题,最后先作答结束的是通义千问,文心一言似乎会有一个 " 思考 " 的过程。4 N. p0 N+ S, l
从多轮对话能力来看,两者都有一定的多轮对话能力,都可能会根据反复对话有所校正,文心一言可能略好点,通义千问有时候比较疯魔。4 T9 [8 z1 N4 e/ |
文生图方面,文心一言还需要提升,差距比较大,通义千问还没有上线文生图。
1 n# f) n7 y4 ~8 q* L# ]' Z9 _- p这次评测的均为学习或教育方面的问题,题目不多,或许评测有偏颇。整体而言,完全用我们目前的大模型来辅导学习,尚存距离。国内的大模型还在路上,需要给他们成长的时间。正如 ChatGPT 一样,它也经历了从胡乱解题,到逐渐靠近正确答案,尤其是 GPT-4,在专业和学术上接近人类水平。. r: t3 L: i, z- Z1 h
盖茨说 "AI 聊天机器人将 18 个月内可以辅导作业 ",指的应该是国外的大模型,国内的或许还需要更长时间。9 R. f* w6 h; x. G  S9 m
END
1 _4 r- v2 N/ H6 @8 A本文作者:王上

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

帖子地址: 

梦想之都-俊月星空 优酷自频道欢迎您 http://i.youku.com/zhaojun917
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /6 下一条

QQ|手机版|小黑屋|梦想之都-俊月星空 ( 粤ICP备18056059号 )|网站地图

GMT+8, 2025-8-23 22:26 , Processed in 0.040760 second(s), 24 queries .

Powered by Mxzdjyxk! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表