京东6.18大促主会场领京享红包更优惠

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 735|回复: 0

文心一言 VS 通义千问,谁更懂学习?

[复制链接]

1586

主题

739

回帖

6687

积分

论坛元老

积分
6687
发表于 2023-4-24 18:38:40 | 显示全部楼层 |阅读模式 来自 安徽
0 l# p6 p+ J' j( c% B

, ~& q3 P4 V  t' b& u. Q国内的大模型还在路上,需要给他们成长的时间。
1 a0 P# M- v  r& S$ w8 a; m9 [来源|多知网
( r/ D+ u6 a2 B9 a# w作者 |王上# V8 x8 V$ X) v6 P3 o4 R: @* J! F" ]$ I
图片来源 | 言之画
* v3 `# A* S% ^' @% Z% U: P比尔 · 盖茨上周二在圣地亚哥举行的 ASU+GSV 峰会上发表主旨演讲时表示:"AI 聊天机器人将 18 个月内,可以做到教孩子阅读,辅导家庭作业。"8 o. W% ~$ \% g6 c) {0 Z( f; R
今年 3 月和 4 月,百度和阿里巴巴分别推出了自己的大模型。目前来看,百度的文心一言和阿里的通义千问均可以多轮对话、文本创作等。% v6 r8 i' d- f: E
未来,大模型将会朝着多模态 ( 文本、图像、视频、音频等 ) 继续发展,也将越来越逼近人类的智慧。
) G  r7 o2 r" s6 ]; g6 b在不少专家学者看来,如果大模型足够成熟,将改变教育体系的核心要素,包括教育目标、知识获取方式等。所以,这波 AI 技术的爆发非常值得教育领域关注。
8 i! R* P- |: R9 g. |( w那么现在,各家的大模型进展到什么程度了?是否可以在学习或者教育领域直接利用呢?我们让百度的文心一言和阿里的通义千问 PK 了一下。
6 A3 M% s: y1 q: T0 R5 x2 A; \我们让文心一言和通义千问在高中英语翻译、初中数学题目、高中中文写作、代码生成、青少年心理辅导方向各出了一道题目,双方针对所有问题各自回答一遍,这样就总共是 10 道题目。* I# c$ `2 b+ f6 z' j5 {
通过评测,我们看到了大模型在学习或教育类的问题上暂未成熟,尤其是数学这样要求精准的科目上,仍然需要继续训练。不过,我们依然看好大模型的未来,他们在教育领域的应用也是必然。$ Y0 Y1 x0 e: w+ S
01/ p4 e, H) S* j/ W
" 作为出卷人 ":题目正常、不算偏怪难3 b0 @7 w, G, e: K) d& d

1 d% R- T5 E! y: D万万没想到,在出题上双方就迥然不同。以下是双方给出的题目:- @- N2 k% u+ W. ]  A% t

& f' N/ |7 T% b5 N1 N0 t+ b- S
; t8 K+ L/ z$ @! u% U0 k+ e. }* J8 a1 H; x( J' ^
+ K2 F* v& O, k6 S

+ _/ i- A% o# u0 A5 a: u4 x点评:文心一言每道给出了 A、B 两套题,通义千问按要求给出了 5 道题。我们给了文心一言两次机会,它依然出了 "A、B 卷 ",有些看不懂 [ 挠头 ] ……我们最后从每道题中选择了一道题,除了第 4 题外,其他题目都选择了 A 题目。. e8 ~5 C- |- ?$ C/ ~
对于这 5 道题目,通义千问看起来更灵活,也更有针对性,更像一个 " 出卷人 "。比如,第 3 题,出一道作文题目,跟通义千问的题目就非常像高考热门命题方向,是跟科技与人文相关的。从出题难度上来看,双方出的都比较偏简单。比如翻译题目,双方出的题目看起来都不像高中的英语题目。  ]; l1 s' @" l7 s
来看他们下面的作答情况——
# v+ O% ~! L: }$ h' ?, ?020 d: M* t; H! z% `+ h
翻译题目
- }- E+ F0 a$ v第一题英文翻译,文心一言的题目,是让把英文翻译成汉语:
1 H* M# D/ i2 V$ L! m( O4 }7 s4 W5 H% X, V# T" s8 L7 O
& H$ j* N! A5 S
2 w# r2 T. b; s5 d2 c
0 w2 [$ k( A, o, P7 U  P' H$ f

: h+ A: b; l7 b7 C6 t8 m5 v点评:这个题目两个都翻译的大同小异,通义千问的会更具体。可能因为题目是文心一言出的,所以它直接翻译成了汉语。而通义千问会问是 " 翻译成哪门语言 ",考虑得更周到一些。; G4 [% `: y) F5 i/ P+ C
来看通义千问出的这道翻译题目:1 h, a- T, K# @) H1 d, J7 V

) S9 I0 o2 P- N8 u7 A
2 k2 ]9 D. |# w) I4 [# I1 ~7 ~9 s2 z6 v) p/ l
2 Q% z6 a% t. O. D
点评:文心一言翻译的是 " 请问我怎么读这个词?" ,通义千问翻译的是 " 你能告诉我这个词是什么意思吗?" 文心一言的翻译更准确一些。通义千问自己出的题却没有答好,有点匪夷所思。3 c6 ]7 J* q9 d( ^  v4 h
要么跟通义千问换一个问法吧,回答如下:
7 k# Y6 Y( F3 q% h  g1 x7 `9 g
) m9 D9 c! m  a) A; L1 x
( D; e/ A# [! p. a4 z9 s. S& ]) Q, ^2 o" s) L& z  E$ N: h
越来越离谱了。。( k9 R. j( n, |6 r  r$ b% x* A6 e5 Q$ ~  h

/ A% S' S2 [3 X) J3 Q7 A! p5 _( a6 [4 ~9 X  H
/ `% ~" B! i$ h& O5 a0 c
* P7 i* I3 ^2 w- ]! q

' F5 b$ y' Y$ S, L8 b' r通义千问多轮对话的能力堪忧……1 v0 U* [& }+ n% [2 }
03  O, x/ ^9 n) ~
数学题目7 b$ M$ g3 C$ I) M
来看初中的数学题:
8 n6 ~8 H2 k4 ]% V% C+ N9 M/ z3 L/ k/ V/ }- Q

/ H5 R6 X, k6 c/ X
% g  k1 E& }8 \0 {, s- T9 S- g4 s5 P( U- `" X

' W* w/ V: W& ?点评:又一次匪夷所思,这次轮到文心一言出的题目自己也做错了。这道题目是分数相乘的结果,文心一言理解成了除法。即便理解成除法,最后也不应该等于 6。不知道这个结果怎么来的,迷之尴尬。通义千问理解对了,最后是 1/8,即 0.125,这是一个确定的值,不明白为什么最后它写的是 " 约等于 " 号,不知道是因为不自信,还是因为马虎写错了?
8 p/ Q) p! Z' u这次二者相同的地方在:都没有给出解题步骤,也没有给出解释。: f2 ?4 @$ x1 V6 N
通义千问出的初中数学题目:
- f3 V% J7 T: Q" F: R2 g$ i6 T( y, R- c  S0 N5 I* F5 j) A- s4 J

2 n. }7 e9 P8 @( Y2 a7 F3 r8 u( {7 o, W: z: \

$ j0 y! Y2 e# i3 Q% D/ u; x% U/ y5 g6 S' O4 h9 `3 B* K' X9 K" t
点评:让文心一言回答了两次,都是 x:9,y:0,文心一言可能连正三角形是什么都不知道。这个题目通义千问回答地非常清楚,给出了完整的解题过程,结果也是对的。6 e5 R3 e- _5 a4 |4 d8 k6 k% W
有点不死心,再次问了文心一言:
. Q% C7 p2 l# H1 N
3 p# B) e5 f9 z: O# R1 l
7 h8 N" f- C4 H3 }* }8 q+ a: t3 T3 l0 T
我们发现,文心一言其实知道正三角形是什么,但是,它就是解不对题目,第三遍依然错误。
% u1 k2 d* u1 C/ E4 ]: E还是不甘心,继续跟文心一言对话,想着让它让画一个正三角形的图吧,如下:) [7 n) b6 {; q9 ]: B

# C; X& B' w7 D
8 ?' P( ?$ c- ~7 y6 R& C1 S, L: ]  M$ j! g: G6 c
这……好吧 o ( ╥﹏╥ ) o,文生图的能力还得加油啊 ~~$ g; D: _5 O" ]5 j3 g+ Q
04( M0 W* U) m+ O* ~4 k7 d. m
写作题目8 Y/ }+ {, r* `
来看文心一言出的写作题目,双方的作答情况:
* n6 n/ Y. ^% }; ]& M7 v
/ X$ Y; Z* @/ B8 s
2 i7 ?/ q" I$ [
0 m/ N+ \  ]: b8 f! ~: @0 L7 w" T; M  r! w: f; x

' H$ L6 b& p$ X3 A# D: W点评:从题目来说,这道题让人想到央视 2012 年的采访," 你幸福吗?" 这道题目看似简单,实则有一定难度,很容易落入俗套,很难脱颖而出。
+ z4 A, l- s$ {再看两者的小作文,第一句话居然神同步了。从内容来看,二者结构也基本相同,均是从各个角度阐述 " 幸福 ",不过,文心一言更偏重个人层面的感受,而通义千问涉及到社会层面以及与他人的关系。整体来看,不分伯仲。大家觉得呢?
" J# o' d% s7 n" b来看通义千问出的作文题目,双方的作答情况:& _/ G3 j5 v( h6 d5 A  Y, K# _- C) m

0 ?9 a( o3 `( K& Q8 E
5 k. q4 g# P% I! C
6 O$ F3 i' _# I0 @7 I; }; k& b  f! {# A
1 F  m( p, u: P8 j& A7 ^0 j" ^3 c  z0 P/ `8 F
) X& n3 E; T) A# A3 ]& Y7 l) g

7 m+ a$ l2 `- d$ [- {# a
7 f, K/ x7 s' L+ m# o6 \% b) w7 u' o5 H% i( p

2 B2 ?* v' c7 U5 ]
) S5 `$ Q; ^+ T( n1 g3 M点评:从题目来看,通义千问出的这个题目非常像高考作文,很有出卷人的视角,是科技创新的方向。
8 ?4 y5 ?' D% Z对于两者的写作,文心一言对这道题目似乎有很多思考,但直接按框架写作的,有点像论文,读起来有些生硬。通义千问的这篇虽然篇幅不长,但看起来更像一篇议论文。7 n8 I! [, u7 T; x7 _: P' E1 f
05- R) b$ m! G1 U6 J) m7 s0 V- J
代码生成
+ T/ l& C* {8 m2 ^7 x6 O来看代码生成的相关题目:; z6 r" p0 n  A; |+ h/ }/ D% f

0 i( f: I0 i* g& y: g% f5 I* o+ w% o
9 }1 [' _9 v; H/ l7 ]* j" s  u4 g- [3 ~- M8 d

7 g7 P. _2 Y" e- r+ N9 a( x
2 Z+ U% v8 P& `" ?/ n  J) l点评:文科生表示看不懂,拉来一名程序员帮忙看了看,他表示:" 核心段是一样的,不过,文心一言没有声明变量。" 懂编程的老师们可以留言点评一下 ~~/ x8 \1 U. Z, r4 ^, T
再来看通义千问出的这道代码生成题目,二者作答情况:% c3 H# S2 l) }$ S* F4 g7 I: p

6 J# s& y* ~5 M
' W: O* v& [5 ~2 p- v7 J
# U( H! B$ {  j$ \6 q+ w% \8 m% I& D- K( N
3 F6 D) `% V- {  L/ X( @* ?2 G
点评:同样来自程序员的评价:" 这两个对题目的理解都不一样,所以写的也不一样。文心一言的是生产随机字符串,26 个字母随意拼;通义千问的是随机的英文单词,我感觉这个更切合题目。"
8 w7 M, G2 ~5 a/ ]; C; ]4 s06
' S7 K; w  U& t心理辅导
8 E2 g8 h" J5 T5 B! [) i* D最后是心理辅导方面的题目,文心一言出的题目,看看双方的作答:
$ a6 I9 J4 }( a( b' n( u  i3 T2 f5 s

1 Y/ A1 w4 M. A* ?) G  X2 V$ r7 O% A7 \) c
+ ^7 a: l" s, Y, o0 J- M$ H
: E9 Q; F; ^0 f# z0 R
点评:从题目来看,文心一言出的这个题目比较宽泛,比如情绪有很多种,是什么样的情绪呢?文心一言并没有说明白。在作答方面,二者在心理方面的辅导大同小异,且都是列点式的回答。两个都给出了管理情绪的具体方法,比如都提到了冥想。
) r$ O" }+ A4 q' |' \最后一道题目,由通义千问提出的问题,看看双方的解答:
- M* @- y7 P; e. f: q
# l+ @9 C# M: C; ^, p* x  Z( r, [- a' z

" `( s# C2 e/ [- v0 |) p- V) j; V) I7 c% ^8 T

: h# H2 t2 {) i& Z- m
- E! _1 M; w" k) B5 V' g! r, q! [" T: ]/ \. \1 K; c
2 P9 P7 G5 {- C( O% L3 g4 C" ]

1 P4 Y  U6 X. n- @2 p点评:首先先看题目,通义千问的问题非常具体,很有针对性。再看作答,两者给出的心理解决方案都非常具体,文心一言还给出了 " 焦虑和压力 " 形成的原因。二者给出了不同的心理辅导方案,通义千问的会更多元一些。相同的是:二者都提到了学会调节情绪,还都提供了相应的理论参考。
, X( d! D  Z- _6 I, o07
& y  j+ M+ J1 X+ V6 G. {" I总结
& {% [3 W. `1 O7 W" A在出题方面,通义千问像一个出题高手,针对性较强,文心一言出了 A、B 两套题,可能想提供更多的方案,但有的题目比较宽泛。( Y, g5 w' Y& k5 l* \8 k: c- {
针对题目解答,在翻译类题目上,二者不相上下,文心一言可能略胜一筹。
/ T9 I& T8 O, T  q6 \- z! M7 q在数学类题目上,看起来通义千问更好一些,有的还给出了清晰的解题过程,文心一言还需要提升。
* Z) m9 |5 q' d& w. |) t; a9 V- l在作文题目上,二者各有千秋,但都还是有机器回答的痕迹。
9 Q) s) f9 ^+ e3 ?1 l在代码生成题目上,都有这方面的能力,可能文心一言需要更理解题目。
! {  M5 Q+ n3 k& V! D在心理辅导方面,二者都比较详尽,对学生和家长来说有一定的指导意义。7 m. ]  q4 T5 G, }' t
从整体作答风格来看,文心一言偏稳重,通义千问更灵活一点。" }7 S$ |: ?0 p. Z
从答题速度上来看,通义千问的速度更快一些。比如先给文心一言输入问题,再给通义千问输入问题,最后先作答结束的是通义千问,文心一言似乎会有一个 " 思考 " 的过程。
/ K  T& {8 q, S从多轮对话能力来看,两者都有一定的多轮对话能力,都可能会根据反复对话有所校正,文心一言可能略好点,通义千问有时候比较疯魔。
, w/ k' _" a# S2 J) ~$ i文生图方面,文心一言还需要提升,差距比较大,通义千问还没有上线文生图。
1 F6 W* ?& O+ a" T; {8 v这次评测的均为学习或教育方面的问题,题目不多,或许评测有偏颇。整体而言,完全用我们目前的大模型来辅导学习,尚存距离。国内的大模型还在路上,需要给他们成长的时间。正如 ChatGPT 一样,它也经历了从胡乱解题,到逐渐靠近正确答案,尤其是 GPT-4,在专业和学术上接近人类水平。
0 F# g0 |2 ?" W2 p2 s/ _盖茨说 "AI 聊天机器人将 18 个月内可以辅导作业 ",指的应该是国外的大模型,国内的或许还需要更长时间。# }; S8 ~2 e7 O  A7 Q
END
7 \  F) W& X+ K& A本文作者:王上

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

帖子地址: 

梦想之都-俊月星空 优酷自频道欢迎您 http://i.youku.com/zhaojun917
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /6 下一条

QQ|手机版|小黑屋|梦想之都-俊月星空 ( 粤ICP备18056059号 )|网站地图

GMT+8, 2025-8-24 02:29 , Processed in 0.036816 second(s), 24 queries .

Powered by Mxzdjyxk! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表