京东6.18大促主会场领京享红包更优惠

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 875|回复: 0

文心一言 VS GPT-4实测!百度背水一战交卷

[复制链接]

1647

主题

726

回帖

6767

积分

论坛元老

积分
6767
发表于 2023-3-17 10:34:34 | 显示全部楼层 |阅读模式 来自 安徽
编辑部 发自 凹非寺1 e& `! W% r0 k
             量子位 | 公众号 QbitAI* d) k  B5 z( ?  G# F
             GPT-4发布一天之后,压力全部给到百度这边。
5 V, z* W0 s1 k( }' B             就在刚刚,百度交卷。
" q" A, c1 z! m% ~% t             文心一言,百度全新一代知识增强大语言模型,正式在百度总部“挥手点江山”会议室里发布。! Q5 U1 W2 ^6 y/ L1 v, @
             在一片静寂的氛围里,李彦宏小步登场,语气里带着点紧张:
' i- |1 a& j! z4 }# i: A+ F             大家的期望值,是我们对标ChatGPT,对标GPT-4,这个门槛有点高(笑)。9 g9 h' O( b$ N8 {: Q
             十月怀胎,我们就带大家来看看这个AI大模型文心一言长什么样。3 ~  w1 @4 j$ a5 K, h% P% p
                          
( i5 }% F6 E- X5 I! ~$ j             此前,有人狂转meme图把百度比作GPT-4旁边的垃圾箱。
/ n7 ^5 s6 }* Q" j: x( D6 P                          
, f, Z; b+ q0 u( b             也有人鼓吹百度是全村的希望。
$ }7 g" E' o; \! X. X/ J             而在发布会进行的同时,百度港股市值大幅下跌,相关话题还冲上了微博热搜。% k+ Y* ~! E! Y7 j8 S
                          0 ~# g8 C) Y9 g4 @% ]7 X) f1 p' j
             但直播弹幕中也有网友点赞:( G1 |8 f# y* u$ p
                          
  u+ d  L# s+ m$ @! C             那么这个中国版ChatGPT到底实力如何?4 Y7 Y0 j) U* n% [0 p
             咱们就用百度发布会演示的预录制Demo,对比一下崭新出炉的GPT-4,先凭实力说话。6 y: a/ O6 E2 o0 v/ S& z
             文心一言 vs GPT-4
9 R9 k8 y( U4 R             和GPT-4一样,文心一言是一个多模态大模型
5 \- Q7 f5 s: j5 U& m9 s" o8 m             李彦宏开场就展示了文心一言具备的5种能力,包括文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成
5 {9 B! K% F" V5 E+ }3 M             文心一言甚至还现场秀了一口接地气的四川话,现场网友发出一片笑声。9 H5 ^% e* b+ o, O+ f0 O* W3 h( F7 ]
             其他能力如何?我们具体展开来看。" b: z$ n) Y( T1 W8 R
             文学创作2 r4 H6 U7 a& A- V, l9 O6 \
             在文学创作上,李彦宏一开场就搬出了《三体》作者刘慈欣坐镇。
' B8 F) b9 I; X% J             先让文心一言介绍一下大刘,“毕竟我也是刘慈欣老乡嘛”:
) [; G7 c% \8 Q4 m+ f$ \                          ! O, ^# n1 ?6 _7 ^7 N
             看起来没什么问题。同样的问题问问GPT-4呢?
* l& y! {; X# W" y7 u, D9 }                          
' p2 j8 p# z% q             嗯???直接把刘慈欣的老家挪到了湖北省洪湖市。湖北人狂喜(doge)# L, G% [; E1 G
             随后,李彦宏又展示了从哲学的角度对这段文章进行续写的demo:6 @0 v* t* r" u& ~& Q+ E
                          
- C; r) _3 S7 O% W             看起来中规中矩,比较理性。老样子,我们也来与GPT-4进行一波对比:
" c0 u% e0 ~- J# h/ C                          , w9 Q& s0 f  H; r
             这波你是想看GPT-4续写的《三体》,还是文心一言的?& y! q1 k* X7 \/ F; {9 G
             再来看看《三体》电视剧中扮演史强和汪淼的老搭档,于和伟和张鲁一,有什么共同点?
7 Q5 H6 l4 T- O& n0 |% |5 s                          
6 T# C; [+ ]9 d             也没什么问题。3 |! ?% Z! F$ w! x
             就是看起来展示的速度有点快,比李彦宏的语速还要快上那么一点点(手动狗头)。
, \7 p# X8 f; y7 X                          0 O3 H' S! x7 M7 _
             商业文案创作4 ]) G3 n; t2 l; ]/ e
             接下来,李彦宏又展示了一下文心一言在商业文案创作上的能力。
# W7 ]8 v: w) s( F9 i             比如给新公司起个名字。
/ ~. n/ Y3 q( ^' O0 [                          : W7 O/ v" W  u( K2 {
             并且这个名字它还不是瞎起的:
& c) c9 c0 v- m& n& z                          
# M) \& y! [& @9 u, ]             再来看看GPT-4起名的效果?1 Q$ v! U0 ?* Z) h! R2 g
                          
: C5 ]9 i) |5 |9 p             看起来,GPT-4对中文的掌控能力相比之下还是少了一点精髓。8 K0 A" p5 v. D( R! t3 X1 y
             至于写个公司成立的新闻稿?对文心一言来说似乎也不成问题:
' @& O. B) n3 X                          3 ]- h: _. `' I, b: ]
             数理逻辑推算
9 I6 q9 n# y* p+ \! N) P             数学能力,是考验生成式大模型的一大难题。ChatGPT刚上线时,也翻了不少车。; e( q8 O/ G7 \) u  `5 \# W
             不过在现场,文心一言处理的数学问题不算复杂,是小学数学竞赛常见的鸡兔同笼问题。
0 O9 S, O) L8 G                          
( Q( z5 C, ]4 }* B             彩蛋是,李彦宏现场展示的第一题,引得文心一言说出了《狂飙》里高启盛的经典台词:这题出得不对。, ~' R" f9 n' b8 D% N
                          
- h( a' q4 s- y1 q- T- y             修改一下题目,OK,再扔给文心一言试试:
$ B+ K4 f1 X4 z. f- l  h                          2 n! o8 F* ?( w  ~. R8 j1 f. R
             看起来,答案还算是有理有据,一步步逻辑推理出来的那种。- p( p$ p+ r7 @8 D" R3 q; y
             李彦宏表示,这些题“不敢说百分之一百能做对,但至少体现了文心一言的思考历程”。: f8 e, H, V7 h8 J( o. ^1 t
             中文理解
- F# ]) Y' {! C/ S4 r: r& S             接下来,李彦宏着重展示了一下文心一言对中文的理解能力,并特意强调:
# W' ]* \  ?7 B/ ^             文心一言对中国文化的了解,理应超出任何一个预训练大模型。
( x2 M6 @& `& F" L1 t             一上来就是一个成语,“洛阳纸贵。到底有多贵?”
. N  u* u" u( Y4 O3 K( Q                          
6 `, ~/ `4 a- y6 O( w& c1 U% k+ ?  a             这是文心一言的效果展示:
/ B4 E; [: o7 Z; w  y                          7 x" a1 I6 t+ C. j6 B; x$ i
             还解释了一下这个成语背后的经济学原理:4 j  j" n8 |" l2 J$ a! \/ T
                          * o- Y$ c# S) M& D) K
             那么,将这个问题抛给GPT-4呢?首先问问它,知不知道洛阳纸贵是什么意思:
, T: h, g, Y0 ?( `                          
  U* n2 n* Z, ]6 }) J* [             接下来,再问问他对应的经济学理论是什么:6 s* P# s+ {0 e" }6 H' M+ ^' {$ r
                          
5 N7 M: K( u' w/ ]4 }4 ^. U             这波看起来,GPT-4的中文理解似乎也不输文心一言啊。! N/ C* M/ M! g, R, x* d* @  O" |
             那么,再来看看二者写藏头诗的能力?: A3 c: s( A( @" A# T2 P
             首先是文心一言的效果展示:
3 G* `% o) ]/ M2 H6 _                          
( l: f4 F5 Y0 h2 v             接下来,我们再看看GPT-4怎么说:
4 ?  L; ]: D0 ?1 i                          
- |" [  J4 D$ M6 `" C- M             诶,看起来反而是GPT-4没有真正理解“藏头诗”的含义。- A1 {4 }4 Q2 W3 g+ O+ M" ]
             这波文化理解上,属实是文心一言“小胜一筹”了。  s% A$ O+ @$ Y, x
             不过在英文上,李彦宏也承认,虽然文心一言也能处理,但能力是显著不如中文的。! F% A- s% {$ r. P6 S/ W
             这也和百度目前能用到的训练数据有关。8 S2 h! [9 c. }' S+ W  [
             多模态生成+ V" C! U$ {$ ]: d$ |0 i
             最后,李彦宏还简单展示了一下文心一言多模态生成的能力。
6 f+ ~# R$ Q+ `- k+ H             首先来看看,为即将到来的2023世界智能交通大会创作海报——
3 L. s' n/ o' H                          
1 O2 x: D: M$ ~& A4 ^             而除了前文展示过的文字转四川话能力,文心一言还能文字转视频
/ B' N6 x! k. j             李彦宏一句指令“将以上内容生成视频”,很快啊,不到几秒钟,文心一言就把字幕和视频做好了:
9 x6 K6 y5 `2 x+ G3 V4 N                          
2 i3 M" q! W0 z3 |3 j, E             有些遗憾的是,在ChatGPT被频频称赞的编程方面,文心一言并没有现场展示相关能力。  c, ~* x4 C1 k6 r
             但王海峰透露,文心一言的训练数据中同样包括代码。/ j7 u/ }7 c5 e3 B
             文心一言如何“跑通”?
" v# {- |9 {2 H- y. ~             正如ChatGPT脱胎于OpenAI的GPT系列,百度这次推出的文心一言(ERNIE Bot),背后也正是基于文心大模型技术打造。
2 W: M$ h0 e7 o& f             据王海峰介绍,文心一言主要脱胎于两大模型:
% M- x, ]1 |; @1 G* L# v7 h             百度ERNIE系列知识增强千亿大模型,以及百度大规模开放域对话模型PLATO。/ H$ D0 Z# f! K+ Z% V: x# k
             在此基础上,主要采用了六项核心技术
2 Y& r$ N& W% z' A' J7 x1 R7 G             其中三个是广为人知的大模型技术,包括有监督精调、人类反馈强化学习(RLHF)和提示构建。
% j/ v( \9 [8 r             p.s. 人类反馈强化学习也是ChatGPT的关键技术。" c9 _( y0 Y0 v$ O+ A: }7 q
             另外三个,则是“百度比较有特色”的技术,包括知识增强、检索增强和对话增强技术。
+ b5 A1 H4 P- j                          
) a5 }' q7 M/ \: {. M( I5 C1 R             首先来看与ChatGPT类似的技术:有监督精调、RLHF和提示构建。
( i" Y+ [4 g4 ?/ k3 C3 y             有监督精调,尤其指中文方面的数据精调。百度基于对中国语言文化和中国应用场景的理解,筛选了特定的数据来训练模型。7 K0 u3 E& l, P  E7 ]
                          
8 L+ I. T# v, B' M1 K             至于人类反馈的强化学习(RLHF)和提示构建,操作上也与ChatGPT大差不差。  i9 p2 c: v" s" [# ~
                          - O: s) P- t# w+ ^& f( e
             随后是百度提出的、用于进一步改善模型效果的技术。
* E) I! U* w5 D" y- P* N             知识增强,包括知识内化和知识外用两个部分。其中,知识内化即将知识“渗透”进模型参数中;知识外用指的是模型可以直接使用外部的知识。3 v$ ~8 d4 [1 c+ R9 X4 X$ f
                          7 u. q- |4 v! D* \; l/ H
             检索增强,则与百度搜索引擎积累的检索技术有关。* ?/ E6 v+ u, i9 V. @
             百度将把检索技术和生成技术结合起来,先对内容进行检索后,将比较有用的部分用于生成,再整合输出结果:8 ]3 B% o% d: \, f
                          ! B; M2 X' }( l+ o
             最后是对话增强部分,包括之前百度积累的记忆机制、上下文理解和对话规划等技术:
( c. _6 t7 G0 [- u                          ( z( R/ ?4 N+ O* N8 l) T
             概括来看,文心一言表现出的能力,被李彦宏称为“智能涌现”:6 m  q/ z! z) b( x* R
             当参数达到千亿量级,训练语料达到足够多的情况下,这种现象就会发生。: ?& D' ?, t: `
             目前,百度拥有的AI技术可以分为四个部分,芯片(昆仑芯)、框架(飞桨)、模型(文心)和应用。! u% ]9 q2 u. Y$ T
             之所以软硬件都要布局,百度称,是为了降低成本6 f, Q1 N3 ~2 y' Z
             生成式AI需求的算力非常高,费用相当昂贵。* h6 p6 Z( k7 S' Z; v
             因此,如果在四层架构之间相互进行协同优化,就能让它的效率比别人更高,从而显著降低成本。
8 B. @4 S2 n0 \8 m             李彦宏认为,这也正是百度的优势所在:; L, n5 B$ f6 }. |4 \, Y* T! {
             四层都有领先产品的公司,绝无仅有。
3 H( `+ `( I0 L  G- d- \                          
2 N" t& A+ v$ v5 m) F+ M             这次文心大模型背后的硬件算力,也是通过百度智能云提供服务。7 p3 y7 R2 z  E8 n4 a$ H: t4 Q! I
             目前,文心一言已经接入百度搜索,目的在于提升搜索资源效率。/ x% x6 Z6 ]2 M  v
             同时,包括小度和自动驾驶Apollo等产品,以及爱奇艺等公司也已经接入百度的文心一言模型。
5 e+ h$ Z! U: F$ ?, A; `* y                          
) D5 Y: N8 w; \1 v             网友:看来还不用提前退休0 U* Y& f/ ^+ }
             截至发稿,百度港股股价在一波明显下跌之后,有所回弹。
* e$ u3 x- W: N7 N                          
: ~8 e. G( x$ Y             发布会结束,网友反应最多的是“提前录制有点败好感”:
7 |+ G- J4 n2 X  H1 a2 x% L                          * {7 P* I1 b- K" W7 ]1 c" m
                          
& z2 y7 X: Z( M: r5 y. X1 b4 j             对于这一点,李彦宏的解释是,给出的问题都比较长,为了节约现场时间,所以才用了提前录制的形式。
. J2 S  m( D+ H$ N4 U0 J             还有不少网友对文心一言展示出的能力不太满意。有人调侃,看完之后感觉“提前退休的日子看起来还可以缓一缓”:
3 G* E0 F3 p. G" D) c/ t+ o$ s                            \3 c6 |. d9 Q3 E, B8 K3 s6 v
             离GPT-4还差了20个老胡。
$ a- v$ h) X, q% r  y                          5 M/ j4 `, d0 m) ~
             还有网友感觉,文心一言的发布会像极了毕业答辩的自己(doge):
$ y+ ?' |2 [0 B5 Q/ Y                          # j" D0 D3 y8 m! O9 J
             不过也有网友表示,希望能给国产产品一点时间一点耐心。" _& G: f4 I! Z9 T8 i9 J
                          3 X: O5 @: T/ ^, q1 S" ?
             发布会末尾,王海峰宣布,文心一言将从今天开始对外进行测试,包括个人用户和企业用户。1 X+ C  O( o+ d/ P) O6 ~9 C2 k
             是骡子是马,相信接下来,会得到更多验证。& T- a" P* f2 {
             One More Thing- D" F5 E' b: o+ H
             对了,有网友表示,已经拿到了文心一言的内测资格:
+ z7 U4 ~  ]; y6 g1 c! f             你好,感谢您体验文心一言,体验地址:
4 D: }. v7 }' t. W             https://yiyan.baidu.com/welcome,希望您在体验当中给予更多意见,文心一言邀请码:KFCVME50RMB,2023年3月16日24:00前有效。
9 b$ e' n. C' p4 |! _4 A             嗯,万物疯狂星期四(手动狗头)。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

帖子地址: 

梦想之都-俊月星空 优酷自频道欢迎您 http://i.youku.com/zhaojun917
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /6 下一条

QQ|手机版|小黑屋|梦想之都-俊月星空 ( 粤ICP备18056059号 )|网站地图

GMT+8, 2025-8-26 21:52 , Processed in 0.042466 second(s), 24 queries .

Powered by Mxzdjyxk! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表