京东6.18大促主会场领京享红包更优惠

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 829|回复: 0

文心一言 VS 通义千问,谁更懂学习?

[复制链接]

1586

主题

739

回帖

6687

积分

论坛元老

积分
6687
发表于 2023-4-24 18:38:40 | 显示全部楼层 |阅读模式 来自 安徽

  h! v* i2 g6 u8 B) D5 E9 D1 z2 c! ~8 Q  \5 v1 t& y5 B0 G
国内的大模型还在路上,需要给他们成长的时间。
/ k: }) a, ?. H. I来源|多知网
5 T0 g) X4 W7 M作者 |王上
& l4 h6 e# D+ x% K: f图片来源 | 言之画/ v/ Y( k1 O8 t9 h
比尔 · 盖茨上周二在圣地亚哥举行的 ASU+GSV 峰会上发表主旨演讲时表示:"AI 聊天机器人将 18 个月内,可以做到教孩子阅读,辅导家庭作业。": r3 @6 c( v( `0 q" Y, K
今年 3 月和 4 月,百度和阿里巴巴分别推出了自己的大模型。目前来看,百度的文心一言和阿里的通义千问均可以多轮对话、文本创作等。
1 a& {, U: S* F* k6 c未来,大模型将会朝着多模态 ( 文本、图像、视频、音频等 ) 继续发展,也将越来越逼近人类的智慧。
% @* }, i% X, y- q在不少专家学者看来,如果大模型足够成熟,将改变教育体系的核心要素,包括教育目标、知识获取方式等。所以,这波 AI 技术的爆发非常值得教育领域关注。
! n/ H0 w3 L; @9 K: |那么现在,各家的大模型进展到什么程度了?是否可以在学习或者教育领域直接利用呢?我们让百度的文心一言和阿里的通义千问 PK 了一下。, j3 Y4 g- J% E
我们让文心一言和通义千问在高中英语翻译、初中数学题目、高中中文写作、代码生成、青少年心理辅导方向各出了一道题目,双方针对所有问题各自回答一遍,这样就总共是 10 道题目。8 A. H! e( s* q0 J2 h5 f
通过评测,我们看到了大模型在学习或教育类的问题上暂未成熟,尤其是数学这样要求精准的科目上,仍然需要继续训练。不过,我们依然看好大模型的未来,他们在教育领域的应用也是必然。
& S. d+ v) S9 ?1 l6 h% j* p01
# A2 J% r6 L( Y. ^) A " 作为出卷人 ":题目正常、不算偏怪难
+ L5 q$ `0 Q+ U" B) ~% q5 L$ a% l- @3 Y& q% d% V. @7 e
万万没想到,在出题上双方就迥然不同。以下是双方给出的题目:2 M4 L8 m4 P1 c% p, P" S) j5 E: D4 r0 ~& ]

* Z8 E% s/ E+ R; k& h  l$ F. Q, B$ V  ~& X) X- G3 L

" L& m, _0 \+ e! k+ _6 H& l( l' B% Z8 Q2 J$ b. ?
; k+ ]7 M+ m8 h* T6 t& D/ N! g6 r4 Y
点评:文心一言每道给出了 A、B 两套题,通义千问按要求给出了 5 道题。我们给了文心一言两次机会,它依然出了 "A、B 卷 ",有些看不懂 [ 挠头 ] ……我们最后从每道题中选择了一道题,除了第 4 题外,其他题目都选择了 A 题目。
3 o: Z& F9 u# j* b0 Y- o对于这 5 道题目,通义千问看起来更灵活,也更有针对性,更像一个 " 出卷人 "。比如,第 3 题,出一道作文题目,跟通义千问的题目就非常像高考热门命题方向,是跟科技与人文相关的。从出题难度上来看,双方出的都比较偏简单。比如翻译题目,双方出的题目看起来都不像高中的英语题目。
9 p. x) m8 |) @1 w$ V) o来看他们下面的作答情况——8 n; o" O: v$ I
02
& B% X/ B! a3 r* n翻译题目4 m. E$ _2 Z6 s# ?! A# [: ]
第一题英文翻译,文心一言的题目,是让把英文翻译成汉语:
, d& c2 l' L7 A' J$ S5 F
& q6 {  ?" s5 u6 X" M4 ~) S) ^. g( S/ n8 _* _
5 k" O! K! Z4 ^) m6 ^: |2 f- `
& ?( ~0 q0 ^* z% x( C

; z# B9 v4 C, Q5 C3 w6 Q点评:这个题目两个都翻译的大同小异,通义千问的会更具体。可能因为题目是文心一言出的,所以它直接翻译成了汉语。而通义千问会问是 " 翻译成哪门语言 ",考虑得更周到一些。
  M  `5 L4 ~4 ^& M: r5 p来看通义千问出的这道翻译题目:$ z0 P% {/ ^0 z& j2 {3 l( d
) S$ O; u$ B/ Q# d* Y" C! X

1 ~- b$ Y4 J, [% Z3 H* U5 w3 G
# j0 g: V: H8 v6 W9 ~! m0 q: X
: T( D# `2 |+ l3 }点评:文心一言翻译的是 " 请问我怎么读这个词?" ,通义千问翻译的是 " 你能告诉我这个词是什么意思吗?" 文心一言的翻译更准确一些。通义千问自己出的题却没有答好,有点匪夷所思。; Q% L1 @0 q; a4 l' F$ O: }
要么跟通义千问换一个问法吧,回答如下:
8 a+ P6 l2 [$ w& \# f2 W# M6 m* e, L" K* L% x, f. z+ ]' |4 Y

0 {4 O3 B; F7 n  q+ i: T9 M8 j4 B+ T
越来越离谱了。。
* U& {% {$ y7 R3 g, Y: W) J" N8 w1 L/ m) B
3 x. L( I$ {% l

" A6 z& l, z$ @8 a/ s' H! o5 |1 g( u% ^( N2 r, Z+ n+ c

5 U' J/ ]2 ^7 E; l, v9 e2 q, l! X通义千问多轮对话的能力堪忧……
& `& T2 G, N& T6 H4 F03' L  q* d! ?: R
数学题目
- v9 e$ D, l8 }2 N8 H  `- F来看初中的数学题:
1 A/ H  N* c2 M  b, J* K3 O3 _) m. j1 F: D6 x: ^! A- S
  E+ i! Q2 Y0 e; L% v& F! N

& x. R$ ?! Q- ~9 f, T
8 Y9 Q* z( C/ }& `& m; c* u, H8 j/ S0 i+ @
点评:又一次匪夷所思,这次轮到文心一言出的题目自己也做错了。这道题目是分数相乘的结果,文心一言理解成了除法。即便理解成除法,最后也不应该等于 6。不知道这个结果怎么来的,迷之尴尬。通义千问理解对了,最后是 1/8,即 0.125,这是一个确定的值,不明白为什么最后它写的是 " 约等于 " 号,不知道是因为不自信,还是因为马虎写错了?- N4 t( Z4 P9 ]( [# K! {
这次二者相同的地方在:都没有给出解题步骤,也没有给出解释。
3 @6 G/ n+ |( ^( d6 ^8 C" I通义千问出的初中数学题目:
! ~0 A% g; V. E. ]: \; ?  \7 c) S6 ]3 @+ C# l/ d/ W

/ g4 }, N: L8 o, q$ z4 n" |- |' L; X6 |# B% n
8 v! j6 w& o# U# m) b7 \- n
' d* k6 F( h: E/ l
点评:让文心一言回答了两次,都是 x:9,y:0,文心一言可能连正三角形是什么都不知道。这个题目通义千问回答地非常清楚,给出了完整的解题过程,结果也是对的。$ t8 L* s# R8 y- Z
有点不死心,再次问了文心一言:. `+ Y/ Y9 a# M2 q0 Q
! T8 f$ |5 A; Z( y# d: c

" G3 o8 ^6 g2 Y& o( m: m9 s2 U; L! r$ R1 J$ ^
我们发现,文心一言其实知道正三角形是什么,但是,它就是解不对题目,第三遍依然错误。
0 Q" f* I) V1 ~2 q还是不甘心,继续跟文心一言对话,想着让它让画一个正三角形的图吧,如下:
, {- e, `5 n" U3 {* R' W+ E7 r. ?* o2 _5 I9 p, C

9 M6 [& z0 @: b
, ?5 M* y  y! `, x这……好吧 o ( ╥﹏╥ ) o,文生图的能力还得加油啊 ~~
, t/ Y! g0 l  p04
  E! R: t) N- C写作题目
" V7 d) S/ j6 d1 z  H6 P8 D% S5 M来看文心一言出的写作题目,双方的作答情况:
5 ]% ~2 @6 O- E6 I% o( g5 A5 a
% C* e) ~3 Z6 R
6 y2 G% {: T3 @+ l+ Z* P4 O" F4 `8 w9 O# _7 N: x& _
0 M% m9 ?* ?% t6 i3 N

' T0 r/ |2 `4 a8 T% X& E% `点评:从题目来说,这道题让人想到央视 2012 年的采访," 你幸福吗?" 这道题目看似简单,实则有一定难度,很容易落入俗套,很难脱颖而出。. q( G% k; ~& n5 {
再看两者的小作文,第一句话居然神同步了。从内容来看,二者结构也基本相同,均是从各个角度阐述 " 幸福 ",不过,文心一言更偏重个人层面的感受,而通义千问涉及到社会层面以及与他人的关系。整体来看,不分伯仲。大家觉得呢?
( w8 Y( l9 b" Q9 l% m& p9 ?1 k/ A' D来看通义千问出的作文题目,双方的作答情况:
4 S/ C1 ]7 R) v- m# ]7 v1 S
7 \! d$ c4 N  e# x1 E- E) V
9 s0 M  y2 w. {. r  |. G- I1 p0 B8 Y9 e" ^  d/ a
+ B6 A% C1 X( Q4 L+ D8 Q  j
: F/ I7 f3 C$ x4 c. s/ l" m2 r
: ^6 |+ J$ y( g5 e6 E: `: \* I
/ c) o2 ~6 k/ G

' q+ `0 h. s( n; |2 g6 h( u0 c# @+ }$ Y

, b: x" ~5 a6 V" T6 |3 I
% z( F, T1 u7 [4 @6 J3 a点评:从题目来看,通义千问出的这个题目非常像高考作文,很有出卷人的视角,是科技创新的方向。
+ v# x) X5 ^+ w7 b! W对于两者的写作,文心一言对这道题目似乎有很多思考,但直接按框架写作的,有点像论文,读起来有些生硬。通义千问的这篇虽然篇幅不长,但看起来更像一篇议论文。
* P$ W2 H; g4 O$ X* g050 @% N3 P) g7 K' w9 d" o6 g% K
代码生成
8 s& @4 D! I8 P$ U来看代码生成的相关题目:% Y1 D- u% m$ Y: p% T3 R

9 s9 V0 x) c& S4 q, d, q0 O9 l  M' h8 E6 B$ R5 {+ d
2 Q3 \6 r- U* H& _# F+ E6 a  `

1 [9 W/ Q; S  L% c" S, @  s! ]+ V' y, z9 M8 g2 @1 f
点评:文科生表示看不懂,拉来一名程序员帮忙看了看,他表示:" 核心段是一样的,不过,文心一言没有声明变量。" 懂编程的老师们可以留言点评一下 ~~+ E7 F8 K1 ?1 v$ y, {3 D
再来看通义千问出的这道代码生成题目,二者作答情况:' y" i" R, Z, Y: {- B% K
3 K2 |# c. i7 w3 _

8 V/ E' y! B6 C3 [% }( x6 e& ~# d: M6 O2 R. [) I

; c+ e7 D) `7 I/ c3 f
) b' b; k+ F8 n点评:同样来自程序员的评价:" 这两个对题目的理解都不一样,所以写的也不一样。文心一言的是生产随机字符串,26 个字母随意拼;通义千问的是随机的英文单词,我感觉这个更切合题目。"! W! w& \+ k! P$ l1 r0 {" }5 l
067 j) U. o9 _& X! M/ C
心理辅导
4 K$ B* x' g$ i! s& R  u最后是心理辅导方面的题目,文心一言出的题目,看看双方的作答:
; K8 H: a  S) P6 t$ G% C4 Q9 O  @$ h' M4 \  i" y" p
% u  h/ B/ X$ [0 P- X
- o& V5 @- U* K% w
# f: X+ Q3 e( u9 {) I5 u, e
) h+ i& m; K" G; g/ s. b
点评:从题目来看,文心一言出的这个题目比较宽泛,比如情绪有很多种,是什么样的情绪呢?文心一言并没有说明白。在作答方面,二者在心理方面的辅导大同小异,且都是列点式的回答。两个都给出了管理情绪的具体方法,比如都提到了冥想。) _1 m5 V  z6 o4 J6 v0 V4 D
最后一道题目,由通义千问提出的问题,看看双方的解答:% N! }) a" j7 M9 k$ Y: ]5 l

# ^9 [& h# o, A! H" w: x4 B3 I3 Y  y; A9 P7 ^

# n  D; l1 A, Q. t% C9 k7 S! A2 ~: H" w; p2 J2 _3 F

: Y: i" y: N% H, b0 r# N0 ?' x" p# D) a' V8 {2 \( R
3 p- ^% g9 v0 b; U

$ d/ N( d8 z1 c/ @8 V# A# T
+ S- F$ I7 a4 f+ t" c# N% |0 l" N点评:首先先看题目,通义千问的问题非常具体,很有针对性。再看作答,两者给出的心理解决方案都非常具体,文心一言还给出了 " 焦虑和压力 " 形成的原因。二者给出了不同的心理辅导方案,通义千问的会更多元一些。相同的是:二者都提到了学会调节情绪,还都提供了相应的理论参考。# }! B+ j5 s& E+ h3 e
07
5 t/ \2 K% b' {( U$ s8 i& l总结# t8 _; ^, p( q: }
在出题方面,通义千问像一个出题高手,针对性较强,文心一言出了 A、B 两套题,可能想提供更多的方案,但有的题目比较宽泛。
$ U  O9 p( h- W' @* {8 t针对题目解答,在翻译类题目上,二者不相上下,文心一言可能略胜一筹。
; G9 Z8 i3 ^% p8 e3 \; E! S- R$ \7 J+ U在数学类题目上,看起来通义千问更好一些,有的还给出了清晰的解题过程,文心一言还需要提升。. z8 Y4 P0 g+ Q$ |3 y( p
在作文题目上,二者各有千秋,但都还是有机器回答的痕迹。
& Z& F5 A0 |, ~/ {7 z在代码生成题目上,都有这方面的能力,可能文心一言需要更理解题目。' k' v" r/ m, R( l* r$ d
在心理辅导方面,二者都比较详尽,对学生和家长来说有一定的指导意义。
6 y$ D* K- |9 [9 I* x. t从整体作答风格来看,文心一言偏稳重,通义千问更灵活一点。: r, ~+ t* Z! C, V( o
从答题速度上来看,通义千问的速度更快一些。比如先给文心一言输入问题,再给通义千问输入问题,最后先作答结束的是通义千问,文心一言似乎会有一个 " 思考 " 的过程。
9 ]/ R- M8 o% `从多轮对话能力来看,两者都有一定的多轮对话能力,都可能会根据反复对话有所校正,文心一言可能略好点,通义千问有时候比较疯魔。7 U: J- s% H8 r0 k5 |
文生图方面,文心一言还需要提升,差距比较大,通义千问还没有上线文生图。
" L$ q4 S! C3 Y+ J2 V* X- d这次评测的均为学习或教育方面的问题,题目不多,或许评测有偏颇。整体而言,完全用我们目前的大模型来辅导学习,尚存距离。国内的大模型还在路上,需要给他们成长的时间。正如 ChatGPT 一样,它也经历了从胡乱解题,到逐渐靠近正确答案,尤其是 GPT-4,在专业和学术上接近人类水平。( K7 m- T2 `# f0 A2 T" j
盖茨说 "AI 聊天机器人将 18 个月内可以辅导作业 ",指的应该是国外的大模型,国内的或许还需要更长时间。
, x# e- \- Z' @* R( mEND8 {0 q( F# k5 h# v! N
本文作者:王上

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

帖子地址: 

梦想之都-俊月星空 优酷自频道欢迎您 http://i.youku.com/zhaojun917
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|梦想之都-俊月星空 ( 粤ICP备18056059号 )|网站地图

GMT+8, 2026-6-22 13:52 , Processed in 0.067948 second(s), 24 queries .

Powered by Mxzdjyxk! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表