京东6.18大促主会场领京享红包更优惠

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 832|回复: 0

文心一言 VS 通义千问,谁更懂学习?

[复制链接]

1586

主题

739

回帖

6687

积分

论坛元老

积分
6687
发表于 2023-4-24 18:38:40 | 显示全部楼层 |阅读模式 来自 安徽
' T7 @  o; h+ {  l! i3 W

# {  I3 k  y5 y  o  C+ }' q3 }  s国内的大模型还在路上,需要给他们成长的时间。2 q: L. d: }" t3 i
来源|多知网
+ D# i, h4 C  p% v. S$ d作者 |王上0 k3 Y& w3 O- s. o1 K" m+ a4 U
图片来源 | 言之画5 k* U& b  D) j  f7 @0 J; I. ^) }
比尔 · 盖茨上周二在圣地亚哥举行的 ASU+GSV 峰会上发表主旨演讲时表示:"AI 聊天机器人将 18 个月内,可以做到教孩子阅读,辅导家庭作业。"' t# H) T6 ?" P" ^
今年 3 月和 4 月,百度和阿里巴巴分别推出了自己的大模型。目前来看,百度的文心一言和阿里的通义千问均可以多轮对话、文本创作等。
3 P/ K) l1 V+ l未来,大模型将会朝着多模态 ( 文本、图像、视频、音频等 ) 继续发展,也将越来越逼近人类的智慧。
6 ?+ e9 l% @' `3 `6 e( _在不少专家学者看来,如果大模型足够成熟,将改变教育体系的核心要素,包括教育目标、知识获取方式等。所以,这波 AI 技术的爆发非常值得教育领域关注。- Z& x( |. o) c, ?; |
那么现在,各家的大模型进展到什么程度了?是否可以在学习或者教育领域直接利用呢?我们让百度的文心一言和阿里的通义千问 PK 了一下。
6 ]7 r6 |) j( q我们让文心一言和通义千问在高中英语翻译、初中数学题目、高中中文写作、代码生成、青少年心理辅导方向各出了一道题目,双方针对所有问题各自回答一遍,这样就总共是 10 道题目。
' s' f0 _; [7 S& f通过评测,我们看到了大模型在学习或教育类的问题上暂未成熟,尤其是数学这样要求精准的科目上,仍然需要继续训练。不过,我们依然看好大模型的未来,他们在教育领域的应用也是必然。
& Z1 x& j) y$ }6 H016 _# h+ ~% R; Q
" 作为出卷人 ":题目正常、不算偏怪难( h+ ^! Y9 P, t1 |, L/ z

' R4 z- E8 O0 g万万没想到,在出题上双方就迥然不同。以下是双方给出的题目:
+ R* s0 b7 h, v8 S0 H( c4 R: S& b' s
2 n$ U4 W0 a+ p. f6 O
" B3 O+ u& a+ A4 P9 j
, ?- \! i, G& ]5 s* Z6 `

$ A$ _/ p0 L& ?) u9 k0 }/ W/ _点评:文心一言每道给出了 A、B 两套题,通义千问按要求给出了 5 道题。我们给了文心一言两次机会,它依然出了 "A、B 卷 ",有些看不懂 [ 挠头 ] ……我们最后从每道题中选择了一道题,除了第 4 题外,其他题目都选择了 A 题目。8 l- @9 u1 {  u) P( B& K) C; `
对于这 5 道题目,通义千问看起来更灵活,也更有针对性,更像一个 " 出卷人 "。比如,第 3 题,出一道作文题目,跟通义千问的题目就非常像高考热门命题方向,是跟科技与人文相关的。从出题难度上来看,双方出的都比较偏简单。比如翻译题目,双方出的题目看起来都不像高中的英语题目。
' }1 C. z& W4 ~6 Z: i来看他们下面的作答情况——3 F4 R& @  V3 q, v5 x$ p
02; C/ I; H) p5 V, X8 @$ S! ?' e
翻译题目- d  M1 v) U( O8 g- H
第一题英文翻译,文心一言的题目,是让把英文翻译成汉语:
# b6 P" i3 h4 L5 ~9 y) T
; e3 K6 ^' p6 ]3 p" ~
3 F% q, D7 F$ Z: q8 Y* E6 \& `. \9 Y" g/ [( \- w

2 }: \" M& Y) c. V8 N/ Y
! H" Y" U$ T: `点评:这个题目两个都翻译的大同小异,通义千问的会更具体。可能因为题目是文心一言出的,所以它直接翻译成了汉语。而通义千问会问是 " 翻译成哪门语言 ",考虑得更周到一些。
) y( @2 ~4 v2 @9 e4 X" v来看通义千问出的这道翻译题目:
/ k4 W3 `& ?" a7 w' p# g6 S+ c" [9 O
% A) i( W# h) v4 Z

4 C# M$ ?, H% ^, J* `4 `/ _! G2 Q7 @; k8 R  @8 D4 k
点评:文心一言翻译的是 " 请问我怎么读这个词?" ,通义千问翻译的是 " 你能告诉我这个词是什么意思吗?" 文心一言的翻译更准确一些。通义千问自己出的题却没有答好,有点匪夷所思。- E& u9 z3 k9 _+ l) p+ F$ M  V
要么跟通义千问换一个问法吧,回答如下:& l0 a% d& X% T! H6 q& l1 P( J

1 ~% B3 X) H: I, P  T- B( T* W. ^

0 \6 L" @6 o) J' E7 r越来越离谱了。。7 t/ i  A5 v' T% [' Y; @
* l: M% Z% `9 o1 X1 V8 d8 y
4 e4 _3 Z: _# X' M

1 D1 l5 |" `% V- |5 H7 a- r$ S' a7 ?

$ s; ]! q7 `9 v6 \1 t通义千问多轮对话的能力堪忧……% R+ c. }, [. ?4 U
03
/ s3 T& p/ W4 @7 ~# d- o5 s数学题目- B" Z# x5 ]: Z! B
来看初中的数学题:
9 Z* }0 A# q/ g" M
/ k. x( p$ n2 O: ~% }4 W+ D( S5 @1 E3 `# b. T
2 I# Z* C- O& M: |7 r1 H% R- H

5 L1 b( i( a( |9 N
1 R+ G' u! k" @点评:又一次匪夷所思,这次轮到文心一言出的题目自己也做错了。这道题目是分数相乘的结果,文心一言理解成了除法。即便理解成除法,最后也不应该等于 6。不知道这个结果怎么来的,迷之尴尬。通义千问理解对了,最后是 1/8,即 0.125,这是一个确定的值,不明白为什么最后它写的是 " 约等于 " 号,不知道是因为不自信,还是因为马虎写错了?
% s2 k7 W3 ?5 {% ~; y. v这次二者相同的地方在:都没有给出解题步骤,也没有给出解释。
/ v% M( S1 R/ x3 `$ x通义千问出的初中数学题目:6 U7 Z; V* U/ R: [' N+ |+ r) n. [4 v3 i
# Q2 \2 H  @# N% i

4 O' @* p9 m1 H) i2 x* q# H) Q9 z: `# c+ l# X

  I/ I4 H  j) R) ^* R- L  w) `
6 s, @" W8 [( n9 h  [6 y点评:让文心一言回答了两次,都是 x:9,y:0,文心一言可能连正三角形是什么都不知道。这个题目通义千问回答地非常清楚,给出了完整的解题过程,结果也是对的。
" m. |. w1 Z  T7 G7 z4 i% [  _, z有点不死心,再次问了文心一言:
; A9 v& j  I5 i; ?4 K
  v- |8 V% h: I& q9 E" B5 h7 u7 Y# N4 L  w, n
6 Z7 Y) `+ r. d4 `
我们发现,文心一言其实知道正三角形是什么,但是,它就是解不对题目,第三遍依然错误。$ K7 g9 w3 N' Z% |/ R
还是不甘心,继续跟文心一言对话,想着让它让画一个正三角形的图吧,如下:
6 t# C& u% e2 Q, }' D) l" W5 R$ M; ?( L
, Q: x6 I6 K- ^0 K1 e: V3 a' E
9 J' n3 j0 d+ b; W* ]8 m
这……好吧 o ( ╥﹏╥ ) o,文生图的能力还得加油啊 ~~
' ^1 x9 c3 l6 @$ p% \' `2 r; K048 Y( T& H  h1 J+ P+ h# s% s
写作题目
" N0 R: J/ R- X" S$ l4 Z0 y& k来看文心一言出的写作题目,双方的作答情况:" t5 {. R6 q" ~

0 v2 t. O' ]' ~$ n2 R3 d3 @* v. \9 R3 @  B" z4 m
0 C3 N& Q/ k# I
8 \8 T9 K" w6 G

- F" N8 `' m- X' T! u点评:从题目来说,这道题让人想到央视 2012 年的采访," 你幸福吗?" 这道题目看似简单,实则有一定难度,很容易落入俗套,很难脱颖而出。
$ j6 J: b$ v$ h3 Q6 O: O再看两者的小作文,第一句话居然神同步了。从内容来看,二者结构也基本相同,均是从各个角度阐述 " 幸福 ",不过,文心一言更偏重个人层面的感受,而通义千问涉及到社会层面以及与他人的关系。整体来看,不分伯仲。大家觉得呢?: D$ \5 f  V/ ]
来看通义千问出的作文题目,双方的作答情况:
( S* W/ i- L% M1 T9 A
" ?1 a' P& Z$ [0 c/ y' M0 i' l/ E4 T! \, @1 ^5 n4 e2 ^
! d, F3 v+ h8 ^5 k+ y
) i( }) U; U1 F; L
* G8 o% m# k( M9 |
. K; X& Z/ l5 A* d; W6 a

( g  V1 D, x" V! s. r* o3 V. R2 F' `9 _) Q# W& T  n2 d. ?( m0 ]
$ p' B' G8 }& n4 M! p# k" \' }4 Y
1 g" K: J# F- G( G* t# \
% S$ V* q' t2 n4 e
点评:从题目来看,通义千问出的这个题目非常像高考作文,很有出卷人的视角,是科技创新的方向。
+ W/ e- t0 Z; ~7 i对于两者的写作,文心一言对这道题目似乎有很多思考,但直接按框架写作的,有点像论文,读起来有些生硬。通义千问的这篇虽然篇幅不长,但看起来更像一篇议论文。
5 z  [1 s$ C4 j8 ~1 r1 s05- E( E1 }% g9 T3 g" q
代码生成
! w/ V6 m5 Q8 I) c) I7 x+ o7 B来看代码生成的相关题目:
! ~9 A# s/ J: C; C0 w. Q, @9 J- N- I9 M' Z( n$ H9 \+ Q" [

% U3 ]2 a7 W8 i" n* q, g+ {. {$ O, V! F
3 e: b$ j6 x$ D0 g9 Y# r
& b) {& ?2 x7 \. f! ?
点评:文科生表示看不懂,拉来一名程序员帮忙看了看,他表示:" 核心段是一样的,不过,文心一言没有声明变量。" 懂编程的老师们可以留言点评一下 ~~
% b* z$ u8 H0 Z# ?+ _再来看通义千问出的这道代码生成题目,二者作答情况:: b, V4 U+ i$ {. _
# F5 R# p# |' a: j" k2 g

, F! \6 B) \4 f0 C. I! t- Q3 n2 t$ u9 C. C

7 E- W- x0 J5 h9 H0 D7 N
. }3 K6 J9 l! f% \* i+ M点评:同样来自程序员的评价:" 这两个对题目的理解都不一样,所以写的也不一样。文心一言的是生产随机字符串,26 个字母随意拼;通义千问的是随机的英文单词,我感觉这个更切合题目。"6 d! b& x; f) M& L8 l
06
! s( d+ }6 _% e9 T' F, I3 [心理辅导# O, |* V! i9 j6 o4 C$ o
最后是心理辅导方面的题目,文心一言出的题目,看看双方的作答:
) o" l: x7 v* i8 |5 t+ w) t3 q( ~7 G

6 G; e% P6 S) E
3 ~' g* d: M. U$ n4 r8 b
" `, Q) l; j$ {# w" ?- A* l3 O
* D8 e, }! G" j$ h点评:从题目来看,文心一言出的这个题目比较宽泛,比如情绪有很多种,是什么样的情绪呢?文心一言并没有说明白。在作答方面,二者在心理方面的辅导大同小异,且都是列点式的回答。两个都给出了管理情绪的具体方法,比如都提到了冥想。7 v: @( o0 X3 P
最后一道题目,由通义千问提出的问题,看看双方的解答:
8 N6 d5 W/ _) I' _0 K" `. b. H
) ?5 X/ K' v$ `: O( y
. j& F, y- ]( D4 i' g' B- d5 U; ~$ c2 ?& y7 `9 i2 U  v
0 ?! n7 H7 t4 }# l  \& _
  l" z4 u" S- c% }0 L5 l

$ Z3 Y  V  R* E, h( h4 t* {" g( q& E& F' L+ y+ C3 E1 |

/ U) ~' ?5 y+ E1 n! S% b" m" {* n; P
点评:首先先看题目,通义千问的问题非常具体,很有针对性。再看作答,两者给出的心理解决方案都非常具体,文心一言还给出了 " 焦虑和压力 " 形成的原因。二者给出了不同的心理辅导方案,通义千问的会更多元一些。相同的是:二者都提到了学会调节情绪,还都提供了相应的理论参考。
5 T) ?$ c- a: ^$ J5 l" a. P07
! d; X! H+ f3 l% b总结
4 E: i- c5 |; G* W  D在出题方面,通义千问像一个出题高手,针对性较强,文心一言出了 A、B 两套题,可能想提供更多的方案,但有的题目比较宽泛。
! z( D- Z1 m5 G# g2 H" s针对题目解答,在翻译类题目上,二者不相上下,文心一言可能略胜一筹。/ M# j  P: T4 A$ L" _# z1 O5 J
在数学类题目上,看起来通义千问更好一些,有的还给出了清晰的解题过程,文心一言还需要提升。
8 d8 c5 s: N: B" y6 M: _$ W, G在作文题目上,二者各有千秋,但都还是有机器回答的痕迹。% [6 ]% |: [! V# _
在代码生成题目上,都有这方面的能力,可能文心一言需要更理解题目。4 C% n3 s% w) A/ k
在心理辅导方面,二者都比较详尽,对学生和家长来说有一定的指导意义。1 {- q6 N! k8 e" b
从整体作答风格来看,文心一言偏稳重,通义千问更灵活一点。: C4 d: \! @$ @* Z* R
从答题速度上来看,通义千问的速度更快一些。比如先给文心一言输入问题,再给通义千问输入问题,最后先作答结束的是通义千问,文心一言似乎会有一个 " 思考 " 的过程。
2 h# U+ P5 p% }/ v+ e: S  P从多轮对话能力来看,两者都有一定的多轮对话能力,都可能会根据反复对话有所校正,文心一言可能略好点,通义千问有时候比较疯魔。  o2 H) a2 T8 C9 J( O" i0 ~" C# g
文生图方面,文心一言还需要提升,差距比较大,通义千问还没有上线文生图。
- S7 |! V1 A; p+ `这次评测的均为学习或教育方面的问题,题目不多,或许评测有偏颇。整体而言,完全用我们目前的大模型来辅导学习,尚存距离。国内的大模型还在路上,需要给他们成长的时间。正如 ChatGPT 一样,它也经历了从胡乱解题,到逐渐靠近正确答案,尤其是 GPT-4,在专业和学术上接近人类水平。& E5 f$ M6 x! ^; y' S
盖茨说 "AI 聊天机器人将 18 个月内可以辅导作业 ",指的应该是国外的大模型,国内的或许还需要更长时间。
+ I  O4 A6 o* s3 r0 D0 vEND" f2 o. d# Y0 g
本文作者:王上

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

帖子地址: 

梦想之都-俊月星空 优酷自频道欢迎您 http://i.youku.com/zhaojun917
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|梦想之都-俊月星空 ( 粤ICP备18056059号 )|网站地图

GMT+8, 2026-6-22 15:17 , Processed in 0.069412 second(s), 24 queries .

Powered by Mxzdjyxk! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表