京东6.18大促主会场领京享红包更优惠

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 775|回复: 0

文心一言 VS 通义千问,谁更懂学习?

[复制链接]

1586

主题

739

回帖

6687

积分

论坛元老

积分
6687
发表于 2023-4-24 18:38:40 | 显示全部楼层 |阅读模式 来自 安徽
' F& f1 j' m* J$ O# f9 H
$ E6 |3 p# }: v
国内的大模型还在路上,需要给他们成长的时间。% p! H  ~8 ?+ f$ d: X# g
来源|多知网" z8 ]; M" K/ k7 p; l% f
作者 |王上
+ c# K% Z9 |4 |图片来源 | 言之画
7 q" a4 V0 ^% s1 s! h比尔 · 盖茨上周二在圣地亚哥举行的 ASU+GSV 峰会上发表主旨演讲时表示:"AI 聊天机器人将 18 个月内,可以做到教孩子阅读,辅导家庭作业。"8 J* C1 x; [% \  j  [! Z
今年 3 月和 4 月,百度和阿里巴巴分别推出了自己的大模型。目前来看,百度的文心一言和阿里的通义千问均可以多轮对话、文本创作等。
' Y+ p! Y" l6 ^$ D未来,大模型将会朝着多模态 ( 文本、图像、视频、音频等 ) 继续发展,也将越来越逼近人类的智慧。
1 Y' T* f. Y+ E" _! E+ R9 |* p  R6 C9 t在不少专家学者看来,如果大模型足够成熟,将改变教育体系的核心要素,包括教育目标、知识获取方式等。所以,这波 AI 技术的爆发非常值得教育领域关注。
3 Q/ f# U7 n; W" w+ u- m那么现在,各家的大模型进展到什么程度了?是否可以在学习或者教育领域直接利用呢?我们让百度的文心一言和阿里的通义千问 PK 了一下。5 ~7 q4 E& G4 d9 n3 B8 U, l
我们让文心一言和通义千问在高中英语翻译、初中数学题目、高中中文写作、代码生成、青少年心理辅导方向各出了一道题目,双方针对所有问题各自回答一遍,这样就总共是 10 道题目。
! ~) A! T. h5 {2 a/ o通过评测,我们看到了大模型在学习或教育类的问题上暂未成熟,尤其是数学这样要求精准的科目上,仍然需要继续训练。不过,我们依然看好大模型的未来,他们在教育领域的应用也是必然。3 n* x/ d( U. @( C3 O
015 ]: p# e0 M4 k% w. ]
" 作为出卷人 ":题目正常、不算偏怪难5 t" i- y7 S5 P/ u' e7 n1 o/ ]0 t

: \' y* x# p8 S$ j# t0 Q: G$ \6 i0 v万万没想到,在出题上双方就迥然不同。以下是双方给出的题目:1 h% a1 {% w3 q8 S: ~/ h

; ^8 ^: B. C( U9 N
! ~) Y% I; F5 \5 L$ I/ g' B+ E/ g' o( \
- |- o2 V( n  Z* Z$ c
; h" r  j# l* }5 F  o' z8 D
点评:文心一言每道给出了 A、B 两套题,通义千问按要求给出了 5 道题。我们给了文心一言两次机会,它依然出了 "A、B 卷 ",有些看不懂 [ 挠头 ] ……我们最后从每道题中选择了一道题,除了第 4 题外,其他题目都选择了 A 题目。3 z6 K( r8 F- r0 k. Y# e% o& m
对于这 5 道题目,通义千问看起来更灵活,也更有针对性,更像一个 " 出卷人 "。比如,第 3 题,出一道作文题目,跟通义千问的题目就非常像高考热门命题方向,是跟科技与人文相关的。从出题难度上来看,双方出的都比较偏简单。比如翻译题目,双方出的题目看起来都不像高中的英语题目。
% g$ N# g4 c& P. W来看他们下面的作答情况——' Q/ W5 L  m6 j' w
02
8 P  P3 F5 {' Z. |5 n* g翻译题目
1 g  w, Q9 l( a) G$ ?$ U% v第一题英文翻译,文心一言的题目,是让把英文翻译成汉语:
" y3 g9 f# H/ P$ I
9 V9 F3 O! `2 T( x5 x% Z& w
7 \  N  @% p7 h4 W# L" g3 G' K
( l; y& B7 G$ ]) K: u2 C' Q, ^: g: N: W2 `' L& q2 e9 U' A
2 }% k5 h1 L- L5 ~" {$ N
点评:这个题目两个都翻译的大同小异,通义千问的会更具体。可能因为题目是文心一言出的,所以它直接翻译成了汉语。而通义千问会问是 " 翻译成哪门语言 ",考虑得更周到一些。0 w% |9 p$ [* ^
来看通义千问出的这道翻译题目:
. D- W' d) l9 @, B. W
) ?; L% \6 S' m) t9 f1 D1 Y2 d( [  r% g6 G

: e! R) V* D7 [- @! Y0 m+ a$ n& n. e4 t9 d" P( M& `; |  c' H
点评:文心一言翻译的是 " 请问我怎么读这个词?" ,通义千问翻译的是 " 你能告诉我这个词是什么意思吗?" 文心一言的翻译更准确一些。通义千问自己出的题却没有答好,有点匪夷所思。9 I% K2 ~8 D4 m5 c* y  B. e7 y
要么跟通义千问换一个问法吧,回答如下:
$ V5 V3 S, q# N. ~
/ T: c3 T: F) r+ C: H$ ^7 N& U& Z8 P4 A
! n. W8 l( a8 J7 e
越来越离谱了。。
) e9 Z5 G% K3 I* W; ]5 ~" H1 m' _* M6 \$ q% @) Z5 r$ C
. Z  j) r4 x2 s. F3 v1 j' Z

0 Y% L* d3 ^( n
$ q8 P7 C! g6 |* d% ^  S& W# I" ^8 _
* E: [" C; q  B通义千问多轮对话的能力堪忧……2 R) H% p8 P. t" i
03
- E* o7 H, G0 l4 f/ @) R+ G数学题目  u3 R1 X# \. J2 `
来看初中的数学题:# z7 B: a! k$ g1 p5 ~

$ c3 a' ^- @) p& S2 u3 X, |. ~" u% g. y' G" R- T3 C2 e- N1 O

. c# _* I. U- P$ O  q
% l0 N0 {* ]- R7 h, T, T! B0 E7 k
( I8 X# _. p; \% o2 a2 o点评:又一次匪夷所思,这次轮到文心一言出的题目自己也做错了。这道题目是分数相乘的结果,文心一言理解成了除法。即便理解成除法,最后也不应该等于 6。不知道这个结果怎么来的,迷之尴尬。通义千问理解对了,最后是 1/8,即 0.125,这是一个确定的值,不明白为什么最后它写的是 " 约等于 " 号,不知道是因为不自信,还是因为马虎写错了?
8 I6 |" n3 H& y这次二者相同的地方在:都没有给出解题步骤,也没有给出解释。
. ?$ Q9 i! h$ t) W# E通义千问出的初中数学题目:
/ h% M* n5 H9 \+ M
! s5 i* C% M/ ?$ Y* A5 Q
2 o# Z- n9 Z: S1 \
" U; j7 d1 i/ o, N
3 c' j; n2 e& h7 |. |
. g+ p7 B5 _' v1 M( l% W点评:让文心一言回答了两次,都是 x:9,y:0,文心一言可能连正三角形是什么都不知道。这个题目通义千问回答地非常清楚,给出了完整的解题过程,结果也是对的。: Z- X2 x/ W: |/ c) G
有点不死心,再次问了文心一言:- W0 y4 Q$ [9 V2 v) `. ~
8 h8 y" j8 G1 x2 J: a3 R6 r
* @/ e4 ?  k3 b4 A8 l, l; g8 Q

) v% J* m6 g% ], Q我们发现,文心一言其实知道正三角形是什么,但是,它就是解不对题目,第三遍依然错误。
7 @; o0 G" _) H# h0 C& \3 l- D还是不甘心,继续跟文心一言对话,想着让它让画一个正三角形的图吧,如下:' Q. m7 o: C2 G! x' E

5 ?/ L/ h8 i! Z7 T: f9 L/ X
+ A* b& e6 c& E5 t# D0 M( _% n4 U' E5 \4 l
这……好吧 o ( ╥﹏╥ ) o,文生图的能力还得加油啊 ~~1 w3 H! v' n+ h- ?
04! v- R) o$ t0 R) M
写作题目/ ]* ?/ ]# G" O: x! {2 K% i3 g
来看文心一言出的写作题目,双方的作答情况:4 H. |. Y2 w. j' ?0 P4 x0 \( ?" f

8 d. e- C9 m$ f6 |+ V
; A) q# U; m) j) ]
- f/ M1 `2 g( e; {; v; ?1 i) {# a
' q; X, z; U0 V5 u0 v7 \! y2 h5 W
点评:从题目来说,这道题让人想到央视 2012 年的采访," 你幸福吗?" 这道题目看似简单,实则有一定难度,很容易落入俗套,很难脱颖而出。
, Q$ c4 Y+ j" |再看两者的小作文,第一句话居然神同步了。从内容来看,二者结构也基本相同,均是从各个角度阐述 " 幸福 ",不过,文心一言更偏重个人层面的感受,而通义千问涉及到社会层面以及与他人的关系。整体来看,不分伯仲。大家觉得呢?
. ~, u2 B: t/ i: g( C" g来看通义千问出的作文题目,双方的作答情况:
9 J3 u$ `3 F4 Y% S1 `4 i; ^8 p7 l  |* @4 N
9 N: y* L6 H& a2 u3 c

. i+ n5 x1 @7 O1 L$ o
# f2 O5 D+ j+ l1 w4 F9 U2 Z* Q. B

6 M/ d  k2 Y! M. g
  A/ D- U/ G, M( h6 e: o; Y# L8 n" [: P# M4 p
" v( e& j# ]4 S

$ T4 ^2 w9 U' ]0 h" i2 S
8 g% p/ x0 c* ^' J' d点评:从题目来看,通义千问出的这个题目非常像高考作文,很有出卷人的视角,是科技创新的方向。) B( k4 |! |, q+ }4 W
对于两者的写作,文心一言对这道题目似乎有很多思考,但直接按框架写作的,有点像论文,读起来有些生硬。通义千问的这篇虽然篇幅不长,但看起来更像一篇议论文。4 Z9 ]+ q' i* D9 v9 d# `
05
, V$ y5 {1 ]" }8 ~8 g+ o' }代码生成( X- c9 f1 C8 d! C6 F6 p
来看代码生成的相关题目:& d. z# z6 m( O* Q( A# h; }9 l

7 d7 M3 M+ }6 Q+ e2 l& W7 R. E
( c" Y4 U2 w5 h8 o# ~* x4 y. m& I- j( U5 A2 x

4 O/ q  ?' ]* G
: J$ H3 Q6 `& y点评:文科生表示看不懂,拉来一名程序员帮忙看了看,他表示:" 核心段是一样的,不过,文心一言没有声明变量。" 懂编程的老师们可以留言点评一下 ~~
0 I: e7 N, O  ^5 w再来看通义千问出的这道代码生成题目,二者作答情况:
0 G% w' q8 f! |$ F+ S* b# G. }, h: b
1 z  Z. S; W/ ?& x

' e! C" k5 ]; [3 \7 C4 ?9 s" Y7 N" v* w3 B) F
) v$ N, }# w3 y4 r
点评:同样来自程序员的评价:" 这两个对题目的理解都不一样,所以写的也不一样。文心一言的是生产随机字符串,26 个字母随意拼;通义千问的是随机的英文单词,我感觉这个更切合题目。"" r, q" ?+ R$ ], P9 c' j
06
' z& K- [# U* c  L心理辅导
/ v; ?4 R, a& b7 d! I) M  Z( l' e- c最后是心理辅导方面的题目,文心一言出的题目,看看双方的作答:
5 F! Y% a! y5 r9 `3 d8 p7 Y9 c! G: U7 W9 ^

7 R: N9 D  Y. @( |) ?4 m
) @* d! X: V% q& n: U7 e- t3 l3 Q: _# O- ~( }& Z

+ T' `. y/ ?# p4 ]( l' [% j- J点评:从题目来看,文心一言出的这个题目比较宽泛,比如情绪有很多种,是什么样的情绪呢?文心一言并没有说明白。在作答方面,二者在心理方面的辅导大同小异,且都是列点式的回答。两个都给出了管理情绪的具体方法,比如都提到了冥想。+ q1 j' W$ t7 `! p: I. b. o# ^. R
最后一道题目,由通义千问提出的问题,看看双方的解答:2 A' m% }0 e. x% ?, e

" N$ A2 u. i3 g/ a, S. r) R
9 |% t9 l3 W$ E9 C" f
. j  N; u+ |$ S% d5 {# o$ X. ?. ~; o1 _* Y( v1 C

& R( |+ m$ H/ @3 h) N6 ]/ o) {* `& l( s2 ~7 V6 ^
7 R7 Q9 e, i" @) |6 _4 ]/ K

1 c) ?% x+ J4 \7 K: c! s: b
. R- S  _+ ~  j3 X# A) m5 m7 H点评:首先先看题目,通义千问的问题非常具体,很有针对性。再看作答,两者给出的心理解决方案都非常具体,文心一言还给出了 " 焦虑和压力 " 形成的原因。二者给出了不同的心理辅导方案,通义千问的会更多元一些。相同的是:二者都提到了学会调节情绪,还都提供了相应的理论参考。' z8 @4 M' k/ H$ s  u
07
2 d. o5 q  `/ D: K4 E总结
, `8 G4 C, s" z: H4 s- M) w在出题方面,通义千问像一个出题高手,针对性较强,文心一言出了 A、B 两套题,可能想提供更多的方案,但有的题目比较宽泛。
& q; }; i/ z' B5 g9 i, H针对题目解答,在翻译类题目上,二者不相上下,文心一言可能略胜一筹。3 F& V6 Q0 S8 G  d$ y8 J/ R! P
在数学类题目上,看起来通义千问更好一些,有的还给出了清晰的解题过程,文心一言还需要提升。/ @6 i& t& Z+ E: Z. p7 J
在作文题目上,二者各有千秋,但都还是有机器回答的痕迹。
. ]5 d, c& y) e1 D+ T" z  u3 v在代码生成题目上,都有这方面的能力,可能文心一言需要更理解题目。
, g- o" K* }! |6 w4 @3 C在心理辅导方面,二者都比较详尽,对学生和家长来说有一定的指导意义。
8 N( Q; l6 l1 y从整体作答风格来看,文心一言偏稳重,通义千问更灵活一点。
, }. p. }- D$ l从答题速度上来看,通义千问的速度更快一些。比如先给文心一言输入问题,再给通义千问输入问题,最后先作答结束的是通义千问,文心一言似乎会有一个 " 思考 " 的过程。) _' A) y7 f$ T' T
从多轮对话能力来看,两者都有一定的多轮对话能力,都可能会根据反复对话有所校正,文心一言可能略好点,通义千问有时候比较疯魔。# Z1 D3 }5 ~2 W
文生图方面,文心一言还需要提升,差距比较大,通义千问还没有上线文生图。
* j5 g$ i+ I: ^7 z# K) _7 v4 \6 q这次评测的均为学习或教育方面的问题,题目不多,或许评测有偏颇。整体而言,完全用我们目前的大模型来辅导学习,尚存距离。国内的大模型还在路上,需要给他们成长的时间。正如 ChatGPT 一样,它也经历了从胡乱解题,到逐渐靠近正确答案,尤其是 GPT-4,在专业和学术上接近人类水平。) r9 ^& Q' o. b, M* ?* Y# L
盖茨说 "AI 聊天机器人将 18 个月内可以辅导作业 ",指的应该是国外的大模型,国内的或许还需要更长时间。8 q4 D7 A/ X+ l+ i7 F8 o- h7 ?$ o# b
END7 h' G# Y% q* p" G' \" ~
本文作者:王上

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

帖子地址: 

梦想之都-俊月星空 优酷自频道欢迎您 http://i.youku.com/zhaojun917
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|梦想之都-俊月星空 ( 粤ICP备18056059号 )|网站地图

GMT+8, 2026-2-6 18:09 , Processed in 0.073072 second(s), 24 queries .

Powered by Mxzdjyxk! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表