京东6.18大促主会场领京享红包更优惠

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 877|回复: 0

文心一言 VS GPT-4实测!百度背水一战交卷

[复制链接]

1647

主题

726

回帖

6767

积分

论坛元老

积分
6767
发表于 2023-3-17 10:34:34 | 显示全部楼层 |阅读模式 来自 安徽
编辑部 发自 凹非寺/ o+ k9 I' G' u. e+ P
             量子位 | 公众号 QbitAI9 J6 I0 F3 m2 c% y# e% E
             GPT-4发布一天之后,压力全部给到百度这边。
$ u, `  r4 U" v7 Y. y; l7 t             就在刚刚,百度交卷。( ]  ^5 s7 p7 j
             文心一言,百度全新一代知识增强大语言模型,正式在百度总部“挥手点江山”会议室里发布。: M. M! u9 t7 n' y" ?, w8 \
             在一片静寂的氛围里,李彦宏小步登场,语气里带着点紧张:
  H  e) K. r$ {! p+ D             大家的期望值,是我们对标ChatGPT,对标GPT-4,这个门槛有点高(笑)。
* X$ P# V; o/ [5 V( e             十月怀胎,我们就带大家来看看这个AI大模型文心一言长什么样。
4 @- s0 ~- s- E8 w. \  y3 m8 s                          9 T4 G* X& U5 f% G  J; {7 p1 S
             此前,有人狂转meme图把百度比作GPT-4旁边的垃圾箱。
& \. R; d( Z' q- |8 P  R                          3 P; }$ M3 Z$ p- z* Y2 n! `
             也有人鼓吹百度是全村的希望。! D' I8 u* \& V4 m& q
             而在发布会进行的同时,百度港股市值大幅下跌,相关话题还冲上了微博热搜。/ Z7 O! k6 I% `1 {4 H: q8 x
                          . E, U$ M* A# h) b
             但直播弹幕中也有网友点赞:8 z" I* q" Q6 v/ P; J# H
                          8 x$ ?/ T) |6 t) C6 J  Y
             那么这个中国版ChatGPT到底实力如何?6 h. g8 m3 ]. {! H5 n7 m2 y
             咱们就用百度发布会演示的预录制Demo,对比一下崭新出炉的GPT-4,先凭实力说话。4 F: a5 Z( z) c) ]$ C* J
             文心一言 vs GPT-4' y# T" V/ ?. n0 y# k0 [9 B
             和GPT-4一样,文心一言是一个多模态大模型/ M, I: `0 A4 B, r+ F0 u
             李彦宏开场就展示了文心一言具备的5种能力,包括文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成: }0 M- G! T. p. L" z+ u: m* U/ k6 o: N
             文心一言甚至还现场秀了一口接地气的四川话,现场网友发出一片笑声。# w( q- F7 D. c
             其他能力如何?我们具体展开来看。7 d  k/ V, D3 D) B) f7 y
             文学创作
6 [! f/ u. x, H! {; r5 }             在文学创作上,李彦宏一开场就搬出了《三体》作者刘慈欣坐镇。
- l! I, ]) p! w$ _1 Z             先让文心一言介绍一下大刘,“毕竟我也是刘慈欣老乡嘛”:6 R' \$ B7 w3 \% O/ X8 d  w
                          ! x* e. ~2 Q' }- V( v, X
             看起来没什么问题。同样的问题问问GPT-4呢?
, n9 m4 y, o& ~9 i& m$ y                          ; Q+ c1 {  F3 s
             嗯???直接把刘慈欣的老家挪到了湖北省洪湖市。湖北人狂喜(doge)2 x. i6 x* {' @2 C, A7 T$ F' m# Y
             随后,李彦宏又展示了从哲学的角度对这段文章进行续写的demo:0 q) r: x, l6 N3 H! K4 R+ @5 }
                          / ]2 j( x$ o8 a+ V' g8 h! ~, ?* W
             看起来中规中矩,比较理性。老样子,我们也来与GPT-4进行一波对比:
& k* S: D1 e3 U" x; t3 R                          
0 {* @% \* U3 F& \( g1 X; Q             这波你是想看GPT-4续写的《三体》,还是文心一言的?6 U& M6 \. \7 l3 C% u2 u
             再来看看《三体》电视剧中扮演史强和汪淼的老搭档,于和伟和张鲁一,有什么共同点?
$ K* ?3 M4 T( W* l. E$ f                          
9 m: D% l  s8 N             也没什么问题。
5 G* @* R9 m9 B; b, Q, D. S2 r9 G             就是看起来展示的速度有点快,比李彦宏的语速还要快上那么一点点(手动狗头)。
9 K5 n. b/ i$ d8 m- F+ \                          8 {- `# u$ k: m
             商业文案创作
+ a/ u8 ?: c6 u0 H& Q6 u" p5 u             接下来,李彦宏又展示了一下文心一言在商业文案创作上的能力。6 w4 N2 E0 i/ p# p5 M1 `% P
             比如给新公司起个名字。' {. N& E! Y: f  x+ n! ?0 n
                          / B3 |, ^3 l- T  a
             并且这个名字它还不是瞎起的:' o# ]; `) @) Q2 f* H: O% k
                          $ D8 L( q2 W; f% o& E
             再来看看GPT-4起名的效果?
# N, G: V% h9 N7 x8 c* D                          
/ C/ t9 Z* E  v4 `7 W9 ]             看起来,GPT-4对中文的掌控能力相比之下还是少了一点精髓。
- @$ {1 I, F5 A3 l; s6 R# L. e             至于写个公司成立的新闻稿?对文心一言来说似乎也不成问题:
+ D5 ]/ T8 T$ y, d6 _                          
" Q* n1 c; X( R; ?) U             数理逻辑推算
! v7 M+ _5 J. \8 b8 W/ L3 f# e             数学能力,是考验生成式大模型的一大难题。ChatGPT刚上线时,也翻了不少车。
9 ?, o0 q4 K, r             不过在现场,文心一言处理的数学问题不算复杂,是小学数学竞赛常见的鸡兔同笼问题。3 b! v& o% ?6 G. X. b
                          3 |# Z  M. r5 I; t2 {% n' g
             彩蛋是,李彦宏现场展示的第一题,引得文心一言说出了《狂飙》里高启盛的经典台词:这题出得不对。
5 f) t; N9 Q& h4 ~1 X                          
2 \) N& m$ E1 u( W' g$ n. Z0 o             修改一下题目,OK,再扔给文心一言试试:1 n8 B% f! i: Z
                          
4 V( M9 Y" v! x/ o' l# ~             看起来,答案还算是有理有据,一步步逻辑推理出来的那种。
; P7 M# o5 r% j# J1 A) n             李彦宏表示,这些题“不敢说百分之一百能做对,但至少体现了文心一言的思考历程”。
, P6 [8 b* B4 N             中文理解
1 G9 V4 ]1 X. y+ T             接下来,李彦宏着重展示了一下文心一言对中文的理解能力,并特意强调:) i3 t! f3 ^6 x) E. X/ x
             文心一言对中国文化的了解,理应超出任何一个预训练大模型。
+ L4 B/ X( g5 X( t             一上来就是一个成语,“洛阳纸贵。到底有多贵?”
3 r& C; `+ K* S/ A7 b8 O  a                          3 K( H- N; \1 c5 p2 @# v2 h2 J
             这是文心一言的效果展示:
" }2 `7 Z, P5 L5 I- W7 P( n                          ! y9 m+ h1 i! _' d) @
             还解释了一下这个成语背后的经济学原理:+ {1 l; G+ N# `6 u1 j- w# r
                          $ r; Y" q8 O- S& ]/ \! U
             那么,将这个问题抛给GPT-4呢?首先问问它,知不知道洛阳纸贵是什么意思:
2 m- A. l& V7 O, n$ x1 _: [                          
/ V& j( i/ C- E* y1 y0 s6 U             接下来,再问问他对应的经济学理论是什么:
2 _, {3 i6 o' p! f                          
/ Y3 N( v4 ]0 W             这波看起来,GPT-4的中文理解似乎也不输文心一言啊。5 I* h' _6 i" B1 q- k  _) P
             那么,再来看看二者写藏头诗的能力?
7 B. Z6 W) j9 [. b0 ~2 P             首先是文心一言的效果展示:
5 o/ |" t0 E4 r2 l                          ; M2 g) _: y' }  ], ]4 I
             接下来,我们再看看GPT-4怎么说:3 H$ s7 \+ M+ k6 s* t/ b  T
                          
3 c& f0 R) l$ H: k6 k             诶,看起来反而是GPT-4没有真正理解“藏头诗”的含义。9 T  U% l$ [9 D3 s0 t8 c3 w( o
             这波文化理解上,属实是文心一言“小胜一筹”了。6 M9 j8 Z! ]: q" _3 M, }
             不过在英文上,李彦宏也承认,虽然文心一言也能处理,但能力是显著不如中文的。
% n# g" P5 g3 @. g( L7 _$ P! T             这也和百度目前能用到的训练数据有关。1 I' U0 _7 X" |& x% E* o0 I
             多模态生成
" s8 h4 m4 G2 @0 J             最后,李彦宏还简单展示了一下文心一言多模态生成的能力。( J  d8 b2 S" X5 l! p% c9 \3 P; O
             首先来看看,为即将到来的2023世界智能交通大会创作海报——3 N) F% i2 T+ m
                          ! D" a/ _( n, s" t, l; Q# s
             而除了前文展示过的文字转四川话能力,文心一言还能文字转视频
7 {1 M) G, [8 f" w/ N1 M8 _3 E7 a             李彦宏一句指令“将以上内容生成视频”,很快啊,不到几秒钟,文心一言就把字幕和视频做好了:
' l' ?5 q2 g0 x, h% A% R                          
" J, {. K% N# n% \- n% p             有些遗憾的是,在ChatGPT被频频称赞的编程方面,文心一言并没有现场展示相关能力。$ t8 U. e  o$ d% H2 m$ L
             但王海峰透露,文心一言的训练数据中同样包括代码。, x# e1 [5 w* |- ?+ }# {
             文心一言如何“跑通”?1 v, z' k# ]2 c: t
             正如ChatGPT脱胎于OpenAI的GPT系列,百度这次推出的文心一言(ERNIE Bot),背后也正是基于文心大模型技术打造。
, ~  X- o) k* L# J, O: A) _: N" `             据王海峰介绍,文心一言主要脱胎于两大模型:/ j+ w( J. j% s8 X' v$ T! J
             百度ERNIE系列知识增强千亿大模型,以及百度大规模开放域对话模型PLATO。
' U" ], _$ C* b- F             在此基础上,主要采用了六项核心技术
/ y3 Q( P% I6 G, C             其中三个是广为人知的大模型技术,包括有监督精调、人类反馈强化学习(RLHF)和提示构建。  m. x! @7 _2 R: ]3 b) P3 g1 b
             p.s. 人类反馈强化学习也是ChatGPT的关键技术。8 g+ A6 n0 A& d, x
             另外三个,则是“百度比较有特色”的技术,包括知识增强、检索增强和对话增强技术。
8 N# T/ G  U: S4 D                          8 ]+ {9 F0 e- c2 Y5 q
             首先来看与ChatGPT类似的技术:有监督精调、RLHF和提示构建。+ E$ o6 f- N$ F' j7 ~
             有监督精调,尤其指中文方面的数据精调。百度基于对中国语言文化和中国应用场景的理解,筛选了特定的数据来训练模型。5 e# z4 A  E4 U
                          # y9 u: V2 s& I4 i( _  G
             至于人类反馈的强化学习(RLHF)和提示构建,操作上也与ChatGPT大差不差。
; F0 @# \; K/ h* S                          
6 e  K" d1 |5 s             随后是百度提出的、用于进一步改善模型效果的技术。
/ T, D. q7 T' D/ _% }             知识增强,包括知识内化和知识外用两个部分。其中,知识内化即将知识“渗透”进模型参数中;知识外用指的是模型可以直接使用外部的知识。
" N4 Z3 ^( d3 Y, ]! k# F* n                          0 w1 v9 H" g+ s: @  {
             检索增强,则与百度搜索引擎积累的检索技术有关。+ ]( y' ~- K' D* i- i
             百度将把检索技术和生成技术结合起来,先对内容进行检索后,将比较有用的部分用于生成,再整合输出结果:/ U0 f% _7 Q1 Z* {6 \
                          
9 m" ~* f- k0 X2 |             最后是对话增强部分,包括之前百度积累的记忆机制、上下文理解和对话规划等技术:
- X# _2 q- [* U, ^. `& [                          
5 s6 ~* `6 S- g* c             概括来看,文心一言表现出的能力,被李彦宏称为“智能涌现”:
  F0 B$ D6 Y; c7 a! \- ]             当参数达到千亿量级,训练语料达到足够多的情况下,这种现象就会发生。
0 w! m/ D3 g4 @6 N8 }             目前,百度拥有的AI技术可以分为四个部分,芯片(昆仑芯)、框架(飞桨)、模型(文心)和应用。
: V) I0 l, E, X; O5 X/ ]" O# l             之所以软硬件都要布局,百度称,是为了降低成本
: U( a2 _; s- K: U1 L: l             生成式AI需求的算力非常高,费用相当昂贵。
* i9 \" l2 h9 @2 _4 t( t             因此,如果在四层架构之间相互进行协同优化,就能让它的效率比别人更高,从而显著降低成本。
0 o) z4 `! Q  f2 B; M. f             李彦宏认为,这也正是百度的优势所在:' U  ?9 G5 i! S, n3 x7 m
             四层都有领先产品的公司,绝无仅有。3 m6 V$ f: o( q+ n, D% F
                          $ }) E, X' ?9 R7 W% F
             这次文心大模型背后的硬件算力,也是通过百度智能云提供服务。
& |' l. e- `! F$ ]; N             目前,文心一言已经接入百度搜索,目的在于提升搜索资源效率。
$ c" L4 R: E: x  G2 |2 d0 Q             同时,包括小度和自动驾驶Apollo等产品,以及爱奇艺等公司也已经接入百度的文心一言模型。
; W! v' E" B/ H0 x7 n                          . @% d) p% r- ]" ]
             网友:看来还不用提前退休: X' B/ Z' A" J: C
             截至发稿,百度港股股价在一波明显下跌之后,有所回弹。) B. I4 @4 ~5 W
                          - s4 d/ x% g6 H1 Y' v" ~8 T, k
             发布会结束,网友反应最多的是“提前录制有点败好感”:
8 G/ ^4 e0 Q0 f: s                          
& C0 ?* w4 f! a1 c$ F; O                          
+ ^2 s  P& E7 `% ~9 d2 L4 x/ {3 a. a# v             对于这一点,李彦宏的解释是,给出的问题都比较长,为了节约现场时间,所以才用了提前录制的形式。
: _, x$ R% k4 B2 {' [" W  q  e             还有不少网友对文心一言展示出的能力不太满意。有人调侃,看完之后感觉“提前退休的日子看起来还可以缓一缓”:1 Z5 T0 s& o! ?0 O3 d
                          
5 i, x4 h: X; `  [; z; v, P             离GPT-4还差了20个老胡。
" E, S; ^5 Z5 q$ d* y4 V) c6 h                          
1 A9 E6 r7 e& ]             还有网友感觉,文心一言的发布会像极了毕业答辩的自己(doge):
3 {( a, ]+ ~6 m4 j                          5 a7 |& W. c, r7 T9 s' G9 @" {
             不过也有网友表示,希望能给国产产品一点时间一点耐心。
5 _3 c% a4 W3 a* j# e! v  _                          ! ^% s" l2 W; a+ y1 \5 m  y
             发布会末尾,王海峰宣布,文心一言将从今天开始对外进行测试,包括个人用户和企业用户。+ V. P$ e" x7 G4 L2 T$ u, {2 \
             是骡子是马,相信接下来,会得到更多验证。7 ~+ E! U! l! K8 R" i
             One More Thing
8 O7 {- x# g5 ~$ s  X" J             对了,有网友表示,已经拿到了文心一言的内测资格:
4 h8 Q2 h, W% H6 R& j7 k             你好,感谢您体验文心一言,体验地址:2 s; q: f5 g* E
             https://yiyan.baidu.com/welcome,希望您在体验当中给予更多意见,文心一言邀请码:KFCVME50RMB,2023年3月16日24:00前有效。; p: O: i# I1 z3 O( _
             嗯,万物疯狂星期四(手动狗头)。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

帖子地址: 

梦想之都-俊月星空 优酷自频道欢迎您 http://i.youku.com/zhaojun917
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /6 下一条

QQ|手机版|小黑屋|梦想之都-俊月星空 ( 粤ICP备18056059号 )|网站地图

GMT+8, 2025-8-26 23:39 , Processed in 0.035847 second(s), 24 queries .

Powered by Mxzdjyxk! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表