京东6.18大促主会场领京享红包更优惠

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 776|回复: 0

文心一言 VS 通义千问,谁更懂学习?

[复制链接]

1586

主题

739

回帖

6687

积分

论坛元老

积分
6687
发表于 2023-4-24 18:38:40 | 显示全部楼层 |阅读模式 来自 安徽

7 \7 H8 Q" Y& B! x* H7 z: U6 ~6 S# J  Z  P  Y9 @
国内的大模型还在路上,需要给他们成长的时间。: C2 s  g) C  s) `: D/ T% g
来源|多知网
7 r& x6 o' ^  D$ B0 l5 w作者 |王上9 g& K/ X- d( }& ~
图片来源 | 言之画
' J% G8 f3 H7 K7 a0 T比尔 · 盖茨上周二在圣地亚哥举行的 ASU+GSV 峰会上发表主旨演讲时表示:"AI 聊天机器人将 18 个月内,可以做到教孩子阅读,辅导家庭作业。"9 l: c0 L) Q" V
今年 3 月和 4 月,百度和阿里巴巴分别推出了自己的大模型。目前来看,百度的文心一言和阿里的通义千问均可以多轮对话、文本创作等。
8 A  Q6 _1 Q! |0 e/ A2 e! V未来,大模型将会朝着多模态 ( 文本、图像、视频、音频等 ) 继续发展,也将越来越逼近人类的智慧。
: \  A: O2 ^5 e$ b' a" t# M( R在不少专家学者看来,如果大模型足够成熟,将改变教育体系的核心要素,包括教育目标、知识获取方式等。所以,这波 AI 技术的爆发非常值得教育领域关注。
" d$ E: z* s$ V9 }$ q那么现在,各家的大模型进展到什么程度了?是否可以在学习或者教育领域直接利用呢?我们让百度的文心一言和阿里的通义千问 PK 了一下。, ^& v8 B6 Y% n. @6 o+ U+ C
我们让文心一言和通义千问在高中英语翻译、初中数学题目、高中中文写作、代码生成、青少年心理辅导方向各出了一道题目,双方针对所有问题各自回答一遍,这样就总共是 10 道题目。
/ M% B; W- \) J$ G# n  M# l0 W, n通过评测,我们看到了大模型在学习或教育类的问题上暂未成熟,尤其是数学这样要求精准的科目上,仍然需要继续训练。不过,我们依然看好大模型的未来,他们在教育领域的应用也是必然。. q& K; ^! K3 L
01* J: h$ x" r4 A  D. _
" 作为出卷人 ":题目正常、不算偏怪难* d* l( f+ V# q3 ~3 n& k- e
2 c0 T: `+ @- G  ^
万万没想到,在出题上双方就迥然不同。以下是双方给出的题目:
& g% Y9 ]. D, i2 `0 J! Q( H0 l: x" j, o6 {
6 j/ f0 u0 P% i9 w- t& d  T
" z( }3 u6 r* c0 H7 y) b5 U
0 Y7 }" k6 R, s0 @. l; [" h* N

/ d+ h$ r  j+ b8 p8 @4 [点评:文心一言每道给出了 A、B 两套题,通义千问按要求给出了 5 道题。我们给了文心一言两次机会,它依然出了 "A、B 卷 ",有些看不懂 [ 挠头 ] ……我们最后从每道题中选择了一道题,除了第 4 题外,其他题目都选择了 A 题目。: O5 E6 O+ U! _! j
对于这 5 道题目,通义千问看起来更灵活,也更有针对性,更像一个 " 出卷人 "。比如,第 3 题,出一道作文题目,跟通义千问的题目就非常像高考热门命题方向,是跟科技与人文相关的。从出题难度上来看,双方出的都比较偏简单。比如翻译题目,双方出的题目看起来都不像高中的英语题目。" x" i$ b) |! z5 y( ]# w
来看他们下面的作答情况——
& A' S3 s6 E  E" F2 ]6 j+ a021 o/ W/ h: J% H) v2 ?1 E
翻译题目0 ]- I- E# t. {5 N3 M0 U4 D
第一题英文翻译,文心一言的题目,是让把英文翻译成汉语:& N/ U* P  V, J/ \! f; L# ^

2 Z! B. p1 ^8 W5 B* R( g
3 M- _" l5 c2 i& [& e4 i) V( w: ]; r$ _0 x- c" R; t' F, l6 _
7 L. J6 K8 d7 x. W2 q

( [- X* h, z, d' W点评:这个题目两个都翻译的大同小异,通义千问的会更具体。可能因为题目是文心一言出的,所以它直接翻译成了汉语。而通义千问会问是 " 翻译成哪门语言 ",考虑得更周到一些。
  g& _. @* z5 H来看通义千问出的这道翻译题目:6 X7 G2 m6 y1 s+ b( k; z; N9 O

3 R/ h  k) @5 V% h* t( w5 n3 ?, o/ i/ ?/ }% T

# A3 }" V. J: }, ]6 Z$ P8 C7 ]- i3 {  S3 x- x. o9 b
点评:文心一言翻译的是 " 请问我怎么读这个词?" ,通义千问翻译的是 " 你能告诉我这个词是什么意思吗?" 文心一言的翻译更准确一些。通义千问自己出的题却没有答好,有点匪夷所思。4 k5 H. x+ \5 }. z5 i' O1 S
要么跟通义千问换一个问法吧,回答如下:
$ G% ?+ X2 F$ ?0 c& I
1 \4 e: ]0 x7 C" ?6 y* x( u
9 I( x5 a8 t3 I- x
! K4 h9 b2 @4 t$ k# |越来越离谱了。。9 D& T# p$ C  C; d

5 f3 V/ O& m, G) M0 k% Z7 f
+ Z9 P8 f) @$ Z. K) q$ }% y1 p1 j/ r4 o) b/ ?: r: i8 p5 p

' [9 m; s: G9 t4 A9 e6 [3 I) W
/ P, w+ R: h2 i1 l通义千问多轮对话的能力堪忧……
0 W2 [5 I0 H* y- U03( t/ n! M1 O9 z2 p$ |( R6 n1 y% K
数学题目
4 a* B8 u! ~+ N3 u2 N( E3 c) L来看初中的数学题:
, }- ^' \) \! m( R
( r" S% x. i- U5 ^7 R* ~
; \! G0 b4 v; Y& U5 I6 z7 W2 l" F1 K/ w

, T/ O  R- P0 L
( }! j" W& x9 R: n" i7 `点评:又一次匪夷所思,这次轮到文心一言出的题目自己也做错了。这道题目是分数相乘的结果,文心一言理解成了除法。即便理解成除法,最后也不应该等于 6。不知道这个结果怎么来的,迷之尴尬。通义千问理解对了,最后是 1/8,即 0.125,这是一个确定的值,不明白为什么最后它写的是 " 约等于 " 号,不知道是因为不自信,还是因为马虎写错了?
0 F3 g/ u$ ~6 P6 f; P& S这次二者相同的地方在:都没有给出解题步骤,也没有给出解释。
! w( f2 y, _9 k5 ^% W通义千问出的初中数学题目:
! e  w( R$ R5 \* ~" g3 K# ~" b3 v. I% A; F1 @5 |
4 L/ z) i3 X8 v1 e2 @
) a. K" N; g4 K( |

1 D+ l0 h6 A  f$ @* k! Q/ p
6 Q) e- p: J5 f% q3 _0 b; q点评:让文心一言回答了两次,都是 x:9,y:0,文心一言可能连正三角形是什么都不知道。这个题目通义千问回答地非常清楚,给出了完整的解题过程,结果也是对的。( i% A7 Z: E4 J# @4 H/ Q
有点不死心,再次问了文心一言:
, s% ~( U8 P6 C6 S. D$ O9 O+ J. e( ?
& @$ u/ x0 |" o4 B1 d# l/ A

4 {$ x. z  e/ l$ x我们发现,文心一言其实知道正三角形是什么,但是,它就是解不对题目,第三遍依然错误。( h$ z% i) b9 o; O
还是不甘心,继续跟文心一言对话,想着让它让画一个正三角形的图吧,如下:* k. \$ ], V# n4 Y$ z
2 R2 g* `4 @, p6 @/ w1 H
% A% r' X4 M' V8 D
5 S# L+ S9 s- x8 \$ g! g2 L
这……好吧 o ( ╥﹏╥ ) o,文生图的能力还得加油啊 ~~
2 e  N0 m6 s( n04" j1 t; C! q  B0 J* V
写作题目
" i& }! t# n% F# \/ v. G; Q* n来看文心一言出的写作题目,双方的作答情况:
' i2 I# |0 P5 C
, l3 W" w0 ?" ]/ w) z0 m
( r; g7 G4 F$ M5 H2 R# {& `; C( U1 }8 R- ^/ w/ D

' T! p& ?' F7 g+ M" M( Q
7 L2 e* C- y5 e$ _点评:从题目来说,这道题让人想到央视 2012 年的采访," 你幸福吗?" 这道题目看似简单,实则有一定难度,很容易落入俗套,很难脱颖而出。
- Y( j0 }: A) z% z5 j5 j2 {再看两者的小作文,第一句话居然神同步了。从内容来看,二者结构也基本相同,均是从各个角度阐述 " 幸福 ",不过,文心一言更偏重个人层面的感受,而通义千问涉及到社会层面以及与他人的关系。整体来看,不分伯仲。大家觉得呢?3 m5 U; \# P: x+ T% @5 D
来看通义千问出的作文题目,双方的作答情况:* [- S" K+ c& \$ y- |$ L  Q

2 q; i" e. s9 g/ s
% r& K8 d3 A8 G, L# x+ P, M7 R0 b* s3 l. c9 X

6 }  d: Z! X$ F9 f$ A$ k
4 A, ^- W! V2 ~7 m: `3 S5 ~1 s* z$ K! \
" Y% a8 h, r2 d* }

+ S' N: |' p4 V, L
& {7 G0 T' Y4 d# m1 V: A3 Z9 V9 P$ x9 R
( l0 X) f/ s; K; e
点评:从题目来看,通义千问出的这个题目非常像高考作文,很有出卷人的视角,是科技创新的方向。
9 G+ O; k9 a5 I- W  \$ Z" x对于两者的写作,文心一言对这道题目似乎有很多思考,但直接按框架写作的,有点像论文,读起来有些生硬。通义千问的这篇虽然篇幅不长,但看起来更像一篇议论文。3 d" N, |" `( @9 y
05& w+ P: V) {! n7 Q4 A
代码生成
2 n( T- m- H( v+ ?4 A来看代码生成的相关题目:
# Y- c2 N  P8 D  |+ A* m* j" I/ o$ D6 K7 W
. F7 C0 v/ C- q3 Q( D
, m- g3 ^) I' E; M) [1 s5 `
7 Z1 n6 X* R/ d7 f7 L' m8 A8 m

: j& R/ q! {$ R点评:文科生表示看不懂,拉来一名程序员帮忙看了看,他表示:" 核心段是一样的,不过,文心一言没有声明变量。" 懂编程的老师们可以留言点评一下 ~~
) i) ~" e; U( n& W5 M1 @) Q  |* S$ O  I再来看通义千问出的这道代码生成题目,二者作答情况:3 S+ Q  ~4 Y( |
# A( Z( @, S( I% p4 `2 p6 Y0 I8 E
' t3 T$ Y+ u/ g0 [& ^; q. ^

9 I5 p# L: @5 o
: @7 ^. |% n, [8 S/ u+ G6 H/ k9 ^
1 N4 C0 O3 _  C. R# ^$ K) H点评:同样来自程序员的评价:" 这两个对题目的理解都不一样,所以写的也不一样。文心一言的是生产随机字符串,26 个字母随意拼;通义千问的是随机的英文单词,我感觉这个更切合题目。"
+ M2 K  @/ d, f* s" i% k+ T% N2 X06
( ?( v, w% |0 K心理辅导
8 J% \. U; P+ W: S% n最后是心理辅导方面的题目,文心一言出的题目,看看双方的作答:1 {: f# M# C# y2 b9 _- _

6 I. r) v+ Z4 z; S; ?6 `, ^8 U, l- M0 k7 ~1 r/ D$ \
/ r1 A! i: P1 C) s/ Y- p

: o& M6 C2 ]- G, }/ c$ c
+ D; V1 G$ s& S; Y+ [( o9 e# E9 E# j. p点评:从题目来看,文心一言出的这个题目比较宽泛,比如情绪有很多种,是什么样的情绪呢?文心一言并没有说明白。在作答方面,二者在心理方面的辅导大同小异,且都是列点式的回答。两个都给出了管理情绪的具体方法,比如都提到了冥想。
6 K8 j7 F: w) i, i% F7 c% ^最后一道题目,由通义千问提出的问题,看看双方的解答:8 Z5 w2 T( v$ G$ o( r. {
, L, v! W/ C2 G4 B( H0 Y
/ S2 b4 i0 Y; d. r' c

7 u+ {* [$ n, ?8 {8 y
* z9 p  ^! v8 ?
2 e( d. S0 ?8 H0 \  m" Z+ j: ~2 ~$ A( B
; Q6 u( L5 T( q# ~- I7 ]9 \2 }
! i1 [2 R. Q/ q& u2 j: ?. z, K* E! [
7 {$ t0 P5 s. b: }" \1 y
点评:首先先看题目,通义千问的问题非常具体,很有针对性。再看作答,两者给出的心理解决方案都非常具体,文心一言还给出了 " 焦虑和压力 " 形成的原因。二者给出了不同的心理辅导方案,通义千问的会更多元一些。相同的是:二者都提到了学会调节情绪,还都提供了相应的理论参考。! S: }, r+ H6 J8 k
079 W2 Z) I( L% D! S9 E5 i- B
总结
1 T! |: A. s7 v( d& b在出题方面,通义千问像一个出题高手,针对性较强,文心一言出了 A、B 两套题,可能想提供更多的方案,但有的题目比较宽泛。
# x8 }) u9 T* G9 X( ^针对题目解答,在翻译类题目上,二者不相上下,文心一言可能略胜一筹。/ f1 ^- H( Z9 @6 a
在数学类题目上,看起来通义千问更好一些,有的还给出了清晰的解题过程,文心一言还需要提升。9 `$ L% }1 z6 s/ |/ F
在作文题目上,二者各有千秋,但都还是有机器回答的痕迹。
5 v. X$ }. Z* w在代码生成题目上,都有这方面的能力,可能文心一言需要更理解题目。
! y3 p+ y9 Z0 P在心理辅导方面,二者都比较详尽,对学生和家长来说有一定的指导意义。
4 R; b6 y3 t+ E+ y/ a从整体作答风格来看,文心一言偏稳重,通义千问更灵活一点。
7 C/ D- m% J+ s从答题速度上来看,通义千问的速度更快一些。比如先给文心一言输入问题,再给通义千问输入问题,最后先作答结束的是通义千问,文心一言似乎会有一个 " 思考 " 的过程。
1 B+ ]* t1 d- H从多轮对话能力来看,两者都有一定的多轮对话能力,都可能会根据反复对话有所校正,文心一言可能略好点,通义千问有时候比较疯魔。
1 R* ]3 [$ Y5 A1 X& }8 q6 t文生图方面,文心一言还需要提升,差距比较大,通义千问还没有上线文生图。
+ w6 {( j9 X. j8 j; C: o; ]/ Q* b这次评测的均为学习或教育方面的问题,题目不多,或许评测有偏颇。整体而言,完全用我们目前的大模型来辅导学习,尚存距离。国内的大模型还在路上,需要给他们成长的时间。正如 ChatGPT 一样,它也经历了从胡乱解题,到逐渐靠近正确答案,尤其是 GPT-4,在专业和学术上接近人类水平。5 c, N; _3 ?% h# I& P1 t4 g8 O
盖茨说 "AI 聊天机器人将 18 个月内可以辅导作业 ",指的应该是国外的大模型,国内的或许还需要更长时间。3 B" E. T  ?& F# j9 j; ~+ h
END% {- u& l& q% X4 y: Z
本文作者:王上

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

帖子地址: 

梦想之都-俊月星空 优酷自频道欢迎您 http://i.youku.com/zhaojun917
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|梦想之都-俊月星空 ( 粤ICP备18056059号 )|网站地图

GMT+8, 2026-2-6 18:11 , Processed in 0.069132 second(s), 24 queries .

Powered by Mxzdjyxk! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表