京东6.18大促主会场领京享红包更优惠

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 950|回复: 0

文心一言 VS GPT-4实测!百度背水一战交卷

[复制链接]

1647

主题

726

回帖

6767

积分

论坛元老

积分
6767
发表于 2023-3-17 10:34:34 | 显示全部楼层 |阅读模式 来自 安徽
编辑部 发自 凹非寺$ m  w- u" I) o: }2 \5 Q9 k; L
             量子位 | 公众号 QbitAI! b! S! o# {" B0 u. i) _
             GPT-4发布一天之后,压力全部给到百度这边。
& r( ^) K0 ^  ~9 b             就在刚刚,百度交卷。
; ~7 l% R- c& O& ^7 F             文心一言,百度全新一代知识增强大语言模型,正式在百度总部“挥手点江山”会议室里发布。+ S4 ]0 U' ?. C: L
             在一片静寂的氛围里,李彦宏小步登场,语气里带着点紧张:
- M2 ?# L$ B+ n: G             大家的期望值,是我们对标ChatGPT,对标GPT-4,这个门槛有点高(笑)。
( L: k9 @9 D2 X% @3 _( R             十月怀胎,我们就带大家来看看这个AI大模型文心一言长什么样。
9 R7 c' R, j( p) h7 }$ C% z                          
& p9 e# s" \3 y* G4 E             此前,有人狂转meme图把百度比作GPT-4旁边的垃圾箱。  e5 `3 o* T; J2 [5 b
                          % ?2 T9 N# V  Q5 ?( J) q  U
             也有人鼓吹百度是全村的希望。
& D$ Z) _+ W) D+ W; r% L( P" H& e( t- \             而在发布会进行的同时,百度港股市值大幅下跌,相关话题还冲上了微博热搜。( V4 E& C) C& {* q6 V0 }: ]5 d
                          % N; T7 `7 D7 J; Z$ M1 i
             但直播弹幕中也有网友点赞:
- x* w& a5 W. ]( D                          2 p% a- T1 P2 d% c+ Z6 Q1 I( a- p2 G8 v
             那么这个中国版ChatGPT到底实力如何?
/ `# b" w* k* I: H: K2 @+ F" \; @- ]             咱们就用百度发布会演示的预录制Demo,对比一下崭新出炉的GPT-4,先凭实力说话。+ G0 p) L9 n/ F( W
             文心一言 vs GPT-4
: t" W: u8 R) _* U. k7 n" P. Q6 r( |             和GPT-4一样,文心一言是一个多模态大模型  _: s5 S9 B. V. C5 U( c
             李彦宏开场就展示了文心一言具备的5种能力,包括文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成2 q! Q7 u: a0 B
             文心一言甚至还现场秀了一口接地气的四川话,现场网友发出一片笑声。& D/ {0 Q7 }( W9 W. C# u
             其他能力如何?我们具体展开来看。; T( n% l0 }' @# e6 {7 P3 U
             文学创作
: E+ ~0 n+ F# B  A# y$ ~             在文学创作上,李彦宏一开场就搬出了《三体》作者刘慈欣坐镇。' C4 b0 p8 v; e3 O* @- y  _9 Y
             先让文心一言介绍一下大刘,“毕竟我也是刘慈欣老乡嘛”:  h4 L* q, P0 e& _) g) [' w! N$ Y
                          
4 K. d, _) _- `2 L0 s. `7 k             看起来没什么问题。同样的问题问问GPT-4呢?
- S( d5 k1 B1 W" m2 l8 `, a                          . w2 B8 ]/ S: o4 t  }5 l$ e% K
             嗯???直接把刘慈欣的老家挪到了湖北省洪湖市。湖北人狂喜(doge)
4 a. s# i7 u  Z             随后,李彦宏又展示了从哲学的角度对这段文章进行续写的demo:
4 u% v+ F- x) l4 C  c1 O                          ; j9 V# b' S7 |( V( ]1 G/ y8 b2 U
             看起来中规中矩,比较理性。老样子,我们也来与GPT-4进行一波对比:
) U% e2 _& ^* l3 H& W- ~: @                          2 W- f7 O1 h) @
             这波你是想看GPT-4续写的《三体》,还是文心一言的?! w6 o2 }  P7 o' h1 E
             再来看看《三体》电视剧中扮演史强和汪淼的老搭档,于和伟和张鲁一,有什么共同点?
2 C. K/ F- N1 }- r                          * L' z+ ]$ B6 o( Q; H1 H( l* H
             也没什么问题。8 @' t) r: y2 j6 _3 `0 v; f
             就是看起来展示的速度有点快,比李彦宏的语速还要快上那么一点点(手动狗头)。
& f& j' P7 L6 v; z$ t+ ?                          
1 g: h. e, Z5 ?; t, s- {0 v/ u             商业文案创作
1 F2 u8 ]% }" i, f  S             接下来,李彦宏又展示了一下文心一言在商业文案创作上的能力。9 {2 I3 V1 \! j
             比如给新公司起个名字。
$ C* C2 s7 z7 X                          
  l( Y% m' }1 C             并且这个名字它还不是瞎起的:6 J7 c- L4 m( Q5 H
                          2 k  D: l! H7 g8 x' d7 L, v7 Y( i
             再来看看GPT-4起名的效果?; y! ~$ D0 T0 p4 S/ [! ^8 u) t% F
                          * H) a. M( D: [- U* N& f' x
             看起来,GPT-4对中文的掌控能力相比之下还是少了一点精髓。
+ ?; I, T+ m5 S! Y- P             至于写个公司成立的新闻稿?对文心一言来说似乎也不成问题:
- t% V+ L. D% L9 R, M                          8 \& w& z' A( ~; p* {
             数理逻辑推算
. A( z7 n4 J8 a/ a. \) D             数学能力,是考验生成式大模型的一大难题。ChatGPT刚上线时,也翻了不少车。
; f2 e/ `4 _% U9 Z& ]4 m  G             不过在现场,文心一言处理的数学问题不算复杂,是小学数学竞赛常见的鸡兔同笼问题。
# a) H- H# t7 S4 c5 k* B3 ^3 Y                          
5 ]$ N- Q; E7 h& a0 a: T, q             彩蛋是,李彦宏现场展示的第一题,引得文心一言说出了《狂飙》里高启盛的经典台词:这题出得不对。
5 t) u% u( K6 E+ A9 E                          
( N, n* O! Z% x             修改一下题目,OK,再扔给文心一言试试:
  I3 @; l. J. N! Z                          
" Z7 O4 J! {& a             看起来,答案还算是有理有据,一步步逻辑推理出来的那种。
# |1 y% g% y* u# ?. P) E             李彦宏表示,这些题“不敢说百分之一百能做对,但至少体现了文心一言的思考历程”。- ~* H& r% @! V: a
             中文理解2 n1 X3 g4 R& ?' L  n
             接下来,李彦宏着重展示了一下文心一言对中文的理解能力,并特意强调:1 d' W' c! i. U, {
             文心一言对中国文化的了解,理应超出任何一个预训练大模型。
$ |4 q/ o3 {: `; z; T             一上来就是一个成语,“洛阳纸贵。到底有多贵?”
. H8 X( f5 X! f3 ?                          
$ ~7 e5 ~6 A' Q# h3 G+ V) v             这是文心一言的效果展示:
( n) }# `) t, o: G3 w1 z( M- P                          
" y5 e. d' m5 k- H/ J             还解释了一下这个成语背后的经济学原理:' w" b: H6 I: B4 c! a3 C% b
                          ; F+ x1 x& t7 u0 d) n6 t: I
             那么,将这个问题抛给GPT-4呢?首先问问它,知不知道洛阳纸贵是什么意思:
% m9 f$ F: F6 o, M% h                          7 _9 S* S- m" @- [' W2 \3 C
             接下来,再问问他对应的经济学理论是什么:
$ U9 T9 q1 ]8 E5 s5 m                          ( l. N* X: r/ R7 ?5 z
             这波看起来,GPT-4的中文理解似乎也不输文心一言啊。
& Z9 ]1 Y  d3 Q( b' Z/ u             那么,再来看看二者写藏头诗的能力?
3 h- t/ y: p* S2 [" _# J9 c             首先是文心一言的效果展示:
; W& ~6 |! r0 ]5 M1 |                          
% L2 b* \2 }" _             接下来,我们再看看GPT-4怎么说:0 c" ^; J' O0 l. s+ q$ n
                          : F0 ~$ r$ w" H4 ]! S! T
             诶,看起来反而是GPT-4没有真正理解“藏头诗”的含义。
# |5 U: Q5 [* B             这波文化理解上,属实是文心一言“小胜一筹”了。
5 h  B1 N6 }8 d7 H2 A             不过在英文上,李彦宏也承认,虽然文心一言也能处理,但能力是显著不如中文的。. ?. o: Z  O; Q7 |/ i4 b
             这也和百度目前能用到的训练数据有关。9 q/ }! F' ~0 F2 F, B$ T4 @
             多模态生成* R9 O, t* s5 t: {$ J  q
             最后,李彦宏还简单展示了一下文心一言多模态生成的能力。! y$ T- {8 m  I; L, l  |2 j; @
             首先来看看,为即将到来的2023世界智能交通大会创作海报——
) E9 L- }  u  i$ d9 @; n                          
3 ~9 I/ m; R* {, s0 @" l, X             而除了前文展示过的文字转四川话能力,文心一言还能文字转视频
/ {$ k! P" K; v. p' P6 K$ Q             李彦宏一句指令“将以上内容生成视频”,很快啊,不到几秒钟,文心一言就把字幕和视频做好了:
4 ~$ ^0 l" ?0 o% \) r5 d                          , X: _& V- p' D
             有些遗憾的是,在ChatGPT被频频称赞的编程方面,文心一言并没有现场展示相关能力。0 D7 A+ w7 h" v- L7 @" [
             但王海峰透露,文心一言的训练数据中同样包括代码。$ m) T) X: S- M" e% n; o
             文心一言如何“跑通”?
, @* I, ?, b+ f: g) h4 k             正如ChatGPT脱胎于OpenAI的GPT系列,百度这次推出的文心一言(ERNIE Bot),背后也正是基于文心大模型技术打造。( ~5 U. R" e: l, m
             据王海峰介绍,文心一言主要脱胎于两大模型:2 Z3 _5 e& k8 Q( x4 M' ~
             百度ERNIE系列知识增强千亿大模型,以及百度大规模开放域对话模型PLATO。3 [6 p. p& ~) S/ v# b. C% \+ Y7 L1 K
             在此基础上,主要采用了六项核心技术4 N8 f8 B; ?% d& T
             其中三个是广为人知的大模型技术,包括有监督精调、人类反馈强化学习(RLHF)和提示构建。
7 B" z; N1 Z$ g             p.s. 人类反馈强化学习也是ChatGPT的关键技术。
5 j3 P) d# }3 x8 @% D             另外三个,则是“百度比较有特色”的技术,包括知识增强、检索增强和对话增强技术。0 u+ p4 [- ?" ~+ ]
                          
8 Y& P# a& S. i             首先来看与ChatGPT类似的技术:有监督精调、RLHF和提示构建。# {) I/ u% s" ^8 `" J
             有监督精调,尤其指中文方面的数据精调。百度基于对中国语言文化和中国应用场景的理解,筛选了特定的数据来训练模型。! y3 I8 a  {! D$ A: z
                          
, e  a' n8 Y) n2 h, w4 o             至于人类反馈的强化学习(RLHF)和提示构建,操作上也与ChatGPT大差不差。
; l" g0 W+ x- p$ N6 _6 [                          / T! e5 v! M& f$ z  P, h% F7 A* f
             随后是百度提出的、用于进一步改善模型效果的技术。0 ^# j9 v8 h  _4 u- {' C
             知识增强,包括知识内化和知识外用两个部分。其中,知识内化即将知识“渗透”进模型参数中;知识外用指的是模型可以直接使用外部的知识。. ?2 C: g0 Y8 Y- e3 ?
                          
. A- l1 ]" @) r% q5 c$ }; `             检索增强,则与百度搜索引擎积累的检索技术有关。
4 q9 J- w) y9 V             百度将把检索技术和生成技术结合起来,先对内容进行检索后,将比较有用的部分用于生成,再整合输出结果:. L3 q" k' P# z7 ]
                          2 J" x% Z, ]4 O& M# N& S
             最后是对话增强部分,包括之前百度积累的记忆机制、上下文理解和对话规划等技术:
- E7 E+ E( ^6 T# p2 K; o1 ?6 V3 }$ b8 B                          
/ _: N( ?+ g+ ?1 q0 T: o- g             概括来看,文心一言表现出的能力,被李彦宏称为“智能涌现”:8 p3 q# H# N. @" k: {5 j/ O
             当参数达到千亿量级,训练语料达到足够多的情况下,这种现象就会发生。* w$ _$ u- I7 \! A( F" r, s7 Y
             目前,百度拥有的AI技术可以分为四个部分,芯片(昆仑芯)、框架(飞桨)、模型(文心)和应用。0 t+ {9 A/ C2 C& }) W/ W9 S. o8 L
             之所以软硬件都要布局,百度称,是为了降低成本
: E0 l$ W) q; k' d* K             生成式AI需求的算力非常高,费用相当昂贵。# Z6 E2 `- K  f. z; [9 e7 W4 r
             因此,如果在四层架构之间相互进行协同优化,就能让它的效率比别人更高,从而显著降低成本。$ d- r. h# A1 |: l% B0 K- d
             李彦宏认为,这也正是百度的优势所在:# z, ^4 ^: Q. _5 W# N2 U
             四层都有领先产品的公司,绝无仅有。
4 t- C& K2 z  [3 [" H/ [4 E                          
0 J0 n! L- R, w# {             这次文心大模型背后的硬件算力,也是通过百度智能云提供服务。/ w$ l' Z; ]" G- x  d6 X. a
             目前,文心一言已经接入百度搜索,目的在于提升搜索资源效率。
4 o* F0 R; N  z( c8 _             同时,包括小度和自动驾驶Apollo等产品,以及爱奇艺等公司也已经接入百度的文心一言模型。# Y+ Q' v0 e, ^% V
                          
$ B. V6 T& h5 E" d             网友:看来还不用提前退休% A$ S. |* k- U, R1 E
             截至发稿,百度港股股价在一波明显下跌之后,有所回弹。; x9 A, ~) P, S/ j( x2 p5 t: N
                          
5 f+ X: K, I+ K; k+ K             发布会结束,网友反应最多的是“提前录制有点败好感”:
' n) ^; ?" ?  K                          ; w+ _# R( h( \% I; s* G5 X
                          + F- }7 |6 P+ T! S  S- u5 J( E
             对于这一点,李彦宏的解释是,给出的问题都比较长,为了节约现场时间,所以才用了提前录制的形式。
" t- W2 A/ X$ l* |+ X7 w) U             还有不少网友对文心一言展示出的能力不太满意。有人调侃,看完之后感觉“提前退休的日子看起来还可以缓一缓”:! D3 v0 u7 v. v, z$ e; Y* z5 u3 M3 R
                          
0 c/ N- X1 }- {" u/ U9 O2 u             离GPT-4还差了20个老胡。
/ P6 X6 P" I$ |                          + D: j( B7 u2 \
             还有网友感觉,文心一言的发布会像极了毕业答辩的自己(doge):
9 V" _) }5 B* d/ T                          
/ v7 |- z  D1 J1 q2 ]; z             不过也有网友表示,希望能给国产产品一点时间一点耐心。
5 U+ H5 p: m( J3 z/ N" Y                          
% d) A0 U6 J% M# d4 X             发布会末尾,王海峰宣布,文心一言将从今天开始对外进行测试,包括个人用户和企业用户。
7 \# e* l% x; G# ]' i" d             是骡子是马,相信接下来,会得到更多验证。- m& w8 ^# ~- A& i# q
             One More Thing
( t" [4 \. P. |0 h             对了,有网友表示,已经拿到了文心一言的内测资格:6 ?- y7 u& V( G3 {+ U, \
             你好,感谢您体验文心一言,体验地址:
# E* l; O- S, b$ Z. J             https://yiyan.baidu.com/welcome,希望您在体验当中给予更多意见,文心一言邀请码:KFCVME50RMB,2023年3月16日24:00前有效。7 @4 J- I' l/ W0 R- t" ~
             嗯,万物疯狂星期四(手动狗头)。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

帖子地址: 

梦想之都-俊月星空 优酷自频道欢迎您 http://i.youku.com/zhaojun917
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|梦想之都-俊月星空 ( 粤ICP备18056059号 )|网站地图

GMT+8, 2026-4-20 17:46 , Processed in 0.041224 second(s), 24 queries .

Powered by Mxzdjyxk! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表