京东6.18大促主会场领京享红包更优惠

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 777|回复: 0

文心一言 VS 通义千问,谁更懂学习?

[复制链接]

1586

主题

739

回帖

6687

积分

论坛元老

积分
6687
发表于 2023-4-24 18:38:40 | 显示全部楼层 |阅读模式 来自 安徽

( @% Q* d" r' h9 r) S# p
; e/ E" p4 A% F) D* f国内的大模型还在路上,需要给他们成长的时间。
* Q# v6 p+ L& t$ C% H来源|多知网: Q# @8 v' a: U5 l9 A8 ~- y
作者 |王上$ n* m8 r/ u+ E! k, h
图片来源 | 言之画
2 K+ M2 \9 a7 J, v1 ?/ d1 l比尔 · 盖茨上周二在圣地亚哥举行的 ASU+GSV 峰会上发表主旨演讲时表示:"AI 聊天机器人将 18 个月内,可以做到教孩子阅读,辅导家庭作业。"0 k1 l, Q8 u& r) j) Q5 C& D
今年 3 月和 4 月,百度和阿里巴巴分别推出了自己的大模型。目前来看,百度的文心一言和阿里的通义千问均可以多轮对话、文本创作等。2 N! V) M6 V1 T* i: r
未来,大模型将会朝着多模态 ( 文本、图像、视频、音频等 ) 继续发展,也将越来越逼近人类的智慧。
& |+ q' R/ o3 \4 X. d3 e; R# u在不少专家学者看来,如果大模型足够成熟,将改变教育体系的核心要素,包括教育目标、知识获取方式等。所以,这波 AI 技术的爆发非常值得教育领域关注。
6 ?. j" Y& N) j& F- v! e那么现在,各家的大模型进展到什么程度了?是否可以在学习或者教育领域直接利用呢?我们让百度的文心一言和阿里的通义千问 PK 了一下。3 v* M5 ?4 A8 l  Z4 C) z! Q& @6 Y5 J
我们让文心一言和通义千问在高中英语翻译、初中数学题目、高中中文写作、代码生成、青少年心理辅导方向各出了一道题目,双方针对所有问题各自回答一遍,这样就总共是 10 道题目。. T: m7 K1 t. C) Y5 w  ^& c
通过评测,我们看到了大模型在学习或教育类的问题上暂未成熟,尤其是数学这样要求精准的科目上,仍然需要继续训练。不过,我们依然看好大模型的未来,他们在教育领域的应用也是必然。; @8 S( V$ ~& @* @) V1 n: r/ {8 B
01
% K) m; ~5 ^1 V( Z " 作为出卷人 ":题目正常、不算偏怪难
' L1 C3 a8 Q+ W% [4 l% I/ t8 E+ M
万万没想到,在出题上双方就迥然不同。以下是双方给出的题目:
* c7 _7 a( A& C0 C( m; \2 E7 g* [8 ^5 g# h8 N
  w3 _( Y  G/ e. _4 z

/ z" i, p7 p" u# }  w1 ]+ m' [- z" ^: k( x
+ j5 q! g( w9 _" D( |. F! [
点评:文心一言每道给出了 A、B 两套题,通义千问按要求给出了 5 道题。我们给了文心一言两次机会,它依然出了 "A、B 卷 ",有些看不懂 [ 挠头 ] ……我们最后从每道题中选择了一道题,除了第 4 题外,其他题目都选择了 A 题目。7 e9 M1 C- |7 P3 [0 x5 ]1 B% k
对于这 5 道题目,通义千问看起来更灵活,也更有针对性,更像一个 " 出卷人 "。比如,第 3 题,出一道作文题目,跟通义千问的题目就非常像高考热门命题方向,是跟科技与人文相关的。从出题难度上来看,双方出的都比较偏简单。比如翻译题目,双方出的题目看起来都不像高中的英语题目。
( l4 U# f& J% m7 g1 d6 C; C来看他们下面的作答情况——4 I5 _2 @; X& y  j* p  x* C
02  \$ A7 t$ j) ?: v
翻译题目- R; \# W6 I4 W+ T  q. @
第一题英文翻译,文心一言的题目,是让把英文翻译成汉语:
) j( J$ e' f4 h$ n) t5 r. B* i+ Y& i6 O; z) ]+ ?
( W( \! P! L8 z# s0 V

( n% m* b) @- P6 Q* f- @4 {$ o5 n* E0 o0 n) q6 p+ U

0 }) f+ u: ~- U& D" S  G点评:这个题目两个都翻译的大同小异,通义千问的会更具体。可能因为题目是文心一言出的,所以它直接翻译成了汉语。而通义千问会问是 " 翻译成哪门语言 ",考虑得更周到一些。
" W" t% ^1 ^# ~来看通义千问出的这道翻译题目:/ l8 i; A3 _! a. `

2 k0 c  L3 D+ @5 ?
: \7 Q# y7 T& W$ B7 n* i, [
4 [9 u7 U0 ^& m+ e& }
8 F- k3 ]( ]8 M2 q/ j) k. ?7 k9 |! i点评:文心一言翻译的是 " 请问我怎么读这个词?" ,通义千问翻译的是 " 你能告诉我这个词是什么意思吗?" 文心一言的翻译更准确一些。通义千问自己出的题却没有答好,有点匪夷所思。5 m8 p5 y5 L; j7 z6 _. \6 R
要么跟通义千问换一个问法吧,回答如下:+ f5 ]/ ?( h( b; t, ]/ u

- U% k/ W; Z* h! J! S& K: |0 `8 }
9 R! t7 a) ^0 j
" U- }& l" |" d1 Q8 H/ H/ Q- C越来越离谱了。。9 ?4 ?' S7 N8 W
; j) x/ N$ ^8 Y0 M
1 u6 ?$ L) g/ k2 ]( J' C

3 \  M( s/ \" l7 i
2 u& P7 R7 [' o/ K1 ~! d
7 c4 B: X+ Y1 S! z通义千问多轮对话的能力堪忧……  T5 q; f( ^0 M1 {  @
03
+ I$ \5 c. Y) v( `3 \4 ?. z9 ?数学题目
+ e& C) t) Q8 |1 |: h  s3 n% k来看初中的数学题:; a+ j" B3 M7 L; P; f: {
! {( S* G1 @% z9 K! r" Q  l  \$ A

( @6 J. g3 S9 n: R# L4 @# W, Z1 C2 `& T7 ?7 Z
8 z: i! v; F% [( @. i9 u, C- r
4 ~( ?( p: i/ g- g
点评:又一次匪夷所思,这次轮到文心一言出的题目自己也做错了。这道题目是分数相乘的结果,文心一言理解成了除法。即便理解成除法,最后也不应该等于 6。不知道这个结果怎么来的,迷之尴尬。通义千问理解对了,最后是 1/8,即 0.125,这是一个确定的值,不明白为什么最后它写的是 " 约等于 " 号,不知道是因为不自信,还是因为马虎写错了?
) b: ?) F3 v- s; O  J* r这次二者相同的地方在:都没有给出解题步骤,也没有给出解释。
+ U* e. b9 @5 c5 k4 D! B4 M通义千问出的初中数学题目:
. k% {  i' U' Q8 x* D$ `
1 R  g: I: c: }- W$ D& j9 `3 N/ x3 `) \+ J8 [

( G8 |+ E# T1 V/ Y
1 h# a, X( N- ~$ T9 X  g4 K' `! x7 R. q( Y
点评:让文心一言回答了两次,都是 x:9,y:0,文心一言可能连正三角形是什么都不知道。这个题目通义千问回答地非常清楚,给出了完整的解题过程,结果也是对的。
1 {% r1 q3 H' G: b有点不死心,再次问了文心一言:
* `$ M! G0 S' [$ h# e- w1 Y1 {. w
$ V6 L& u8 H) @
5 Q1 S0 c# X; t9 \4 l. U+ _) y$ `$ y% H" \! y' d5 m0 z
我们发现,文心一言其实知道正三角形是什么,但是,它就是解不对题目,第三遍依然错误。# E' g# A) Z: L9 P7 k
还是不甘心,继续跟文心一言对话,想着让它让画一个正三角形的图吧,如下:* F2 ]# u) n; e: M! i% ]+ w
- u$ c& P3 q, C% o2 G6 X5 D5 T

' `' c4 P( G. Q4 R; {: ?% @& d8 q" O( M  z4 @
这……好吧 o ( ╥﹏╥ ) o,文生图的能力还得加油啊 ~~/ c% @. P9 }! Z4 c
04
0 V# k# _3 C$ S: J* R写作题目! m9 I9 A0 I6 a
来看文心一言出的写作题目,双方的作答情况:
+ a) }# B/ s; H' i$ V: x1 I3 i  p- X
8 v1 h! V6 s; b% R, C
7 y+ k) p+ t: k  `1 s) h: g- k7 z3 ]2 D8 k8 w
/ J4 T0 Z; D' e( F" c# P* V0 J
) R2 i+ v1 P- i% g
点评:从题目来说,这道题让人想到央视 2012 年的采访," 你幸福吗?" 这道题目看似简单,实则有一定难度,很容易落入俗套,很难脱颖而出。
, z. x: y; W* E+ o1 L' L4 m, T) w再看两者的小作文,第一句话居然神同步了。从内容来看,二者结构也基本相同,均是从各个角度阐述 " 幸福 ",不过,文心一言更偏重个人层面的感受,而通义千问涉及到社会层面以及与他人的关系。整体来看,不分伯仲。大家觉得呢?
: N  t3 _: o3 s' g0 F! M( R来看通义千问出的作文题目,双方的作答情况:
" i9 b: J- Z6 j3 r5 M5 e0 B9 M( Z

2 _8 r9 T  }" P, |
. X# ~& t- }* f+ Q2 ]3 x9 ~$ P8 F4 G# M
2 N9 ~+ Q/ h  ]# e5 t2 }( R

4 A! C: E' G. {4 n* [$ P2 y  v, I  z& {4 \, y6 Z

0 L; X  @. x3 R8 D+ @* K& m
) \. h: Z$ O+ v* v# X7 T
0 ]/ ^# b7 `; [, r8 c
! |( B1 c2 S  Q+ g* X点评:从题目来看,通义千问出的这个题目非常像高考作文,很有出卷人的视角,是科技创新的方向。$ O) d# ^2 }3 M4 u9 B
对于两者的写作,文心一言对这道题目似乎有很多思考,但直接按框架写作的,有点像论文,读起来有些生硬。通义千问的这篇虽然篇幅不长,但看起来更像一篇议论文。$ o3 T& h; b$ C- D5 }
05
1 I! ^6 Z; D0 f4 \& S代码生成
8 M+ q6 F6 [4 j) r来看代码生成的相关题目:
) l$ H2 o0 P9 _0 i5 _( Y$ J" d# j/ s8 E  m  T+ T. r& N3 e

$ E6 n, @' d% g
) Q- Y" s- d. n1 D
* Y. k' I" R" k( F" ~$ N8 s+ ^3 S, d) \  L
点评:文科生表示看不懂,拉来一名程序员帮忙看了看,他表示:" 核心段是一样的,不过,文心一言没有声明变量。" 懂编程的老师们可以留言点评一下 ~~
1 z1 }1 n9 _, i& c& T& Q4 K再来看通义千问出的这道代码生成题目,二者作答情况:
8 ]) i3 r4 T1 q8 B7 B/ M! m$ j: N5 A% J1 ^5 I

# h) Z/ b. {* l) l# o& i/ x1 I* z& K2 V  P
0 a3 ~+ {' I3 D" B" Q/ ]

( a4 |6 Y' `3 k! H/ F- N+ B" i1 w点评:同样来自程序员的评价:" 这两个对题目的理解都不一样,所以写的也不一样。文心一言的是生产随机字符串,26 个字母随意拼;通义千问的是随机的英文单词,我感觉这个更切合题目。"
% W8 y4 ]1 A2 \! g) l7 S. K9 H8 b06
5 ^9 K) V2 c; K心理辅导
7 H+ I+ V  H9 ]2 s2 Y' j% {, V最后是心理辅导方面的题目,文心一言出的题目,看看双方的作答:
1 F; c9 l. P& G& d5 q1 X' a; o$ c8 O% G& X
. l' E! j' |+ G

" J8 P% I2 w) g* ?4 \# h6 V7 h8 X6 W# M. v
- B8 ?/ J# j; d5 M' p) S- `- b: D
点评:从题目来看,文心一言出的这个题目比较宽泛,比如情绪有很多种,是什么样的情绪呢?文心一言并没有说明白。在作答方面,二者在心理方面的辅导大同小异,且都是列点式的回答。两个都给出了管理情绪的具体方法,比如都提到了冥想。: G+ X" C2 D9 j" L! A1 ?0 P! N
最后一道题目,由通义千问提出的问题,看看双方的解答:# h: u& y4 a' M

: O$ C$ I; ^. D5 l
6 F1 z* h' T* f  R2 S* w8 G' Y1 k4 b7 s, [
% S. B- k6 _2 \5 k+ ?2 k2 I
! F  l8 L2 l+ m$ h! x( T" F& \
3 k( V! P; P8 a

$ `( a7 q( S! b: b) x+ ~, O2 j
# ]+ j; M2 I7 L9 J8 O/ _  Y5 u7 `
9 x# s/ m% r( _5 |: W& c8 Y9 X% k点评:首先先看题目,通义千问的问题非常具体,很有针对性。再看作答,两者给出的心理解决方案都非常具体,文心一言还给出了 " 焦虑和压力 " 形成的原因。二者给出了不同的心理辅导方案,通义千问的会更多元一些。相同的是:二者都提到了学会调节情绪,还都提供了相应的理论参考。
  B+ E6 o! N* U+ J* @% m! R07
) ]# Z7 r4 ]* L0 H总结
4 r2 l6 \7 b& O在出题方面,通义千问像一个出题高手,针对性较强,文心一言出了 A、B 两套题,可能想提供更多的方案,但有的题目比较宽泛。4 c  y6 d) A% w7 q) L, k; j# S
针对题目解答,在翻译类题目上,二者不相上下,文心一言可能略胜一筹。$ j2 T- O3 k2 A% E# p
在数学类题目上,看起来通义千问更好一些,有的还给出了清晰的解题过程,文心一言还需要提升。# ?9 b: n9 d3 H8 h7 |. W
在作文题目上,二者各有千秋,但都还是有机器回答的痕迹。
3 O# Y, X# ]6 e" ^在代码生成题目上,都有这方面的能力,可能文心一言需要更理解题目。
6 x. C: D1 c; U, C在心理辅导方面,二者都比较详尽,对学生和家长来说有一定的指导意义。; h. _& d/ D6 Z" p- C$ C
从整体作答风格来看,文心一言偏稳重,通义千问更灵活一点。
9 p+ _8 f) `$ W+ y从答题速度上来看,通义千问的速度更快一些。比如先给文心一言输入问题,再给通义千问输入问题,最后先作答结束的是通义千问,文心一言似乎会有一个 " 思考 " 的过程。
- V8 w: J) x5 \) V2 ^5 b1 f5 b) d9 ~从多轮对话能力来看,两者都有一定的多轮对话能力,都可能会根据反复对话有所校正,文心一言可能略好点,通义千问有时候比较疯魔。
! q1 }/ j6 _, W1 z文生图方面,文心一言还需要提升,差距比较大,通义千问还没有上线文生图。
$ Q% z6 C1 o3 k1 i" e这次评测的均为学习或教育方面的问题,题目不多,或许评测有偏颇。整体而言,完全用我们目前的大模型来辅导学习,尚存距离。国内的大模型还在路上,需要给他们成长的时间。正如 ChatGPT 一样,它也经历了从胡乱解题,到逐渐靠近正确答案,尤其是 GPT-4,在专业和学术上接近人类水平。3 z8 @' V' l$ C: v" X$ \6 ^! [
盖茨说 "AI 聊天机器人将 18 个月内可以辅导作业 ",指的应该是国外的大模型,国内的或许还需要更长时间。
  ~8 X3 k7 U! Q/ q) F2 g% H( S. {END/ |5 _; O9 E6 M9 m
本文作者:王上

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

帖子地址: 

梦想之都-俊月星空 优酷自频道欢迎您 http://i.youku.com/zhaojun917
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|梦想之都-俊月星空 ( 粤ICP备18056059号 )|网站地图

GMT+8, 2026-2-6 19:44 , Processed in 0.070485 second(s), 24 queries .

Powered by Mxzdjyxk! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表