京东6.18大促主会场领京享红包更优惠

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 876|回复: 0

文心一言 VS GPT-4实测!百度背水一战交卷

[复制链接]

1647

主题

726

回帖

6767

积分

论坛元老

积分
6767
发表于 2023-3-17 10:34:34 | 显示全部楼层 |阅读模式 来自 安徽
编辑部 发自 凹非寺
7 |5 c! }! R$ l0 ~# `             量子位 | 公众号 QbitAI: l$ p8 Q( d) K2 f4 c
             GPT-4发布一天之后,压力全部给到百度这边。5 ^4 l. Y2 ~5 I
             就在刚刚,百度交卷。& Y5 V- d- t5 t7 V. d/ y
             文心一言,百度全新一代知识增强大语言模型,正式在百度总部“挥手点江山”会议室里发布。
( O5 O# g, M' s5 d" B8 s- Z             在一片静寂的氛围里,李彦宏小步登场,语气里带着点紧张:4 z0 _+ @$ f$ n, d, p9 e5 Q
             大家的期望值,是我们对标ChatGPT,对标GPT-4,这个门槛有点高(笑)。
  d9 w# F$ d! `7 W             十月怀胎,我们就带大家来看看这个AI大模型文心一言长什么样。
# |& b8 ?) J2 [* }0 k1 ~                          
$ t* X8 s" B* \' u3 x             此前,有人狂转meme图把百度比作GPT-4旁边的垃圾箱。
& r' w/ \9 ]; c$ g                          7 U$ q9 X4 `# A  Y7 U9 |+ ^( L8 `
             也有人鼓吹百度是全村的希望。
# F: y# h) a* K& H1 q- O             而在发布会进行的同时,百度港股市值大幅下跌,相关话题还冲上了微博热搜。
; _5 k' f4 ]0 r# V0 }                          / w( {! L% d+ e
             但直播弹幕中也有网友点赞:' w2 @( o: p6 @! L: X. l: O# Q
                          # n0 C' H" C: ^; n
             那么这个中国版ChatGPT到底实力如何?
5 m7 p8 f9 o" X- Y: _' v5 F             咱们就用百度发布会演示的预录制Demo,对比一下崭新出炉的GPT-4,先凭实力说话。
( M7 F! O9 W7 \) ]* e0 S, v" \             文心一言 vs GPT-4
  T! P: ]& v3 J! A- y4 F             和GPT-4一样,文心一言是一个多模态大模型
; b, M# [/ `8 L1 m  }             李彦宏开场就展示了文心一言具备的5种能力,包括文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成
# f- \) P% M  ^! L             文心一言甚至还现场秀了一口接地气的四川话,现场网友发出一片笑声。9 N' L" n/ g% h7 m, _$ M/ ~
             其他能力如何?我们具体展开来看。
* |' H- Q: Z3 n6 v- O' M             文学创作
+ K9 g# F. g  ~' k' J             在文学创作上,李彦宏一开场就搬出了《三体》作者刘慈欣坐镇。
8 [( z% ]1 J0 E% p! E' V4 S  Y% Q" V             先让文心一言介绍一下大刘,“毕竟我也是刘慈欣老乡嘛”:3 k0 u% c+ e, X# p5 b6 C% e4 |
                          - O. j" B, D6 R
             看起来没什么问题。同样的问题问问GPT-4呢?- p2 r# x/ B+ M0 [! g; C" ]
                          # C/ N/ o9 a' w  ]( ^: l9 V7 r  ^+ I7 w
             嗯???直接把刘慈欣的老家挪到了湖北省洪湖市。湖北人狂喜(doge)) ?; u, d: }2 C% i5 \, |+ ]( @
             随后,李彦宏又展示了从哲学的角度对这段文章进行续写的demo:4 I& b& r" i- O; ~* I1 i+ |% J! @
                          
/ p* ]+ `: e# W" V7 O4 O             看起来中规中矩,比较理性。老样子,我们也来与GPT-4进行一波对比:% `- S1 W; L* n- j; N  f
                          & m/ q7 \/ L+ C" ^& I' ~
             这波你是想看GPT-4续写的《三体》,还是文心一言的?- E1 Y7 I: j( a6 q: w1 [' K0 }) @& L
             再来看看《三体》电视剧中扮演史强和汪淼的老搭档,于和伟和张鲁一,有什么共同点?# W9 w7 R6 M/ T+ r7 Y! }
                          
' B6 g6 j" ]7 F& S             也没什么问题。
( w! q  ]  U/ j( @             就是看起来展示的速度有点快,比李彦宏的语速还要快上那么一点点(手动狗头)。6 L7 j' [4 \$ \3 ~3 e* }
                          ( A) y4 q' K6 o2 b7 S6 ?5 b+ c1 {
             商业文案创作
; G! ]4 L, o: G! F8 b             接下来,李彦宏又展示了一下文心一言在商业文案创作上的能力。( z: Q5 ^: }& l
             比如给新公司起个名字。
3 v& l3 b) C4 S( r$ j                          2 J4 F* v# o. X, Y$ ]
             并且这个名字它还不是瞎起的:! z2 J7 U' L) ]& E/ ^; ~! u
                          + P+ |" h  j  c3 S4 X/ J. \
             再来看看GPT-4起名的效果?
! v3 @: i7 W, ?                          5 D, n" a1 g+ m3 k
             看起来,GPT-4对中文的掌控能力相比之下还是少了一点精髓。5 c/ K" ?1 E$ C8 V, f/ s9 |: b
             至于写个公司成立的新闻稿?对文心一言来说似乎也不成问题:
. Q0 @4 s( r9 W2 Z$ Z0 Q' p                          
9 b2 {  ?0 S  i/ a( k, X             数理逻辑推算
8 {" Z4 G$ S  i& M5 p' w0 t0 Y             数学能力,是考验生成式大模型的一大难题。ChatGPT刚上线时,也翻了不少车。
( ?5 q& g) y# A. |! Z' Q             不过在现场,文心一言处理的数学问题不算复杂,是小学数学竞赛常见的鸡兔同笼问题。
; Z7 N, T1 O$ Y2 ~* ^* f                          2 e. _% w( O4 b3 A! l* V
             彩蛋是,李彦宏现场展示的第一题,引得文心一言说出了《狂飙》里高启盛的经典台词:这题出得不对。
1 M9 c( W  f' q, T& y                          9 y. x7 n) u) U
             修改一下题目,OK,再扔给文心一言试试:9 J/ e) t; D! t0 \  ]' K1 x+ v, K
                          ( L4 O' i6 }9 l$ Y3 n9 D
             看起来,答案还算是有理有据,一步步逻辑推理出来的那种。+ ^, n: e9 ]* P9 j/ m. k
             李彦宏表示,这些题“不敢说百分之一百能做对,但至少体现了文心一言的思考历程”。; t5 A3 r8 T& x) v& S. V) p/ p
             中文理解
: q& {. `3 o& k             接下来,李彦宏着重展示了一下文心一言对中文的理解能力,并特意强调:
" q3 B# M4 S2 b) L1 ^             文心一言对中国文化的了解,理应超出任何一个预训练大模型。: p0 }5 N# M" \- _3 g
             一上来就是一个成语,“洛阳纸贵。到底有多贵?”
  ?- ^$ z! v& y: a5 r                          
( ^8 P2 P4 z% Y3 {  x0 C9 Y/ ~             这是文心一言的效果展示:% ]! |+ z% f3 w' `4 x. m5 J
                          
. z  e/ M7 Q! U# k, }6 }+ J             还解释了一下这个成语背后的经济学原理:
1 O. \" X8 g, r                          " ~3 U( [3 ?  y( S
             那么,将这个问题抛给GPT-4呢?首先问问它,知不知道洛阳纸贵是什么意思:
  v  }# P" z, I( F+ r8 U# J; @                          
& l' }  }& |1 R7 f% t             接下来,再问问他对应的经济学理论是什么:3 H1 C& V' ~9 Z0 |
                          
7 x: W: s4 h+ _4 Q5 `& p6 d# e             这波看起来,GPT-4的中文理解似乎也不输文心一言啊。) E; a1 I! J% T# m
             那么,再来看看二者写藏头诗的能力?
) E6 `" ?3 p$ J             首先是文心一言的效果展示:
( X( ^; ~' Y. H- @. `) y- \                          ! F2 {( M5 x* u
             接下来,我们再看看GPT-4怎么说:2 \, `' j/ l5 D1 S- `# p
                          7 g: ^; |$ m/ p5 ?
             诶,看起来反而是GPT-4没有真正理解“藏头诗”的含义。
: f! L1 ^; c9 x             这波文化理解上,属实是文心一言“小胜一筹”了。
5 |5 k$ b' ]3 D! z- d* m5 P- ^3 ]             不过在英文上,李彦宏也承认,虽然文心一言也能处理,但能力是显著不如中文的。: l# a* ^# N: X7 U! U: @  z
             这也和百度目前能用到的训练数据有关。
: y8 U( a( }, O; o2 n2 M; o5 [             多模态生成, o0 K0 N; K' X* o) d
             最后,李彦宏还简单展示了一下文心一言多模态生成的能力。
* P1 B+ i$ |2 D3 v             首先来看看,为即将到来的2023世界智能交通大会创作海报——2 k$ B9 \' c7 A+ u! E
                          
! |* m8 P' C9 F( F# X+ z             而除了前文展示过的文字转四川话能力,文心一言还能文字转视频
! f7 @( Q# _. F# c             李彦宏一句指令“将以上内容生成视频”,很快啊,不到几秒钟,文心一言就把字幕和视频做好了:$ [# R! a; @( {
                          # {; C  j; R2 q/ d0 p- A+ a* n2 o
             有些遗憾的是,在ChatGPT被频频称赞的编程方面,文心一言并没有现场展示相关能力。
! [% s& G4 W" P             但王海峰透露,文心一言的训练数据中同样包括代码。$ t* T# ~4 F# x
             文心一言如何“跑通”?
. h0 N! f- _( N7 y! o# _) G0 ~             正如ChatGPT脱胎于OpenAI的GPT系列,百度这次推出的文心一言(ERNIE Bot),背后也正是基于文心大模型技术打造。
8 e5 r0 F4 O( x+ [             据王海峰介绍,文心一言主要脱胎于两大模型:
2 [" p  L, `2 B, N7 c5 j* s* U% {             百度ERNIE系列知识增强千亿大模型,以及百度大规模开放域对话模型PLATO。  m3 y+ ^) s" s+ u& `
             在此基础上,主要采用了六项核心技术/ R4 r" K4 J" n6 J( J/ y. o
             其中三个是广为人知的大模型技术,包括有监督精调、人类反馈强化学习(RLHF)和提示构建。6 d: ~& g( L" ^5 X
             p.s. 人类反馈强化学习也是ChatGPT的关键技术。+ P0 W0 Q" ?6 g- G" N
             另外三个,则是“百度比较有特色”的技术,包括知识增强、检索增强和对话增强技术。
( V/ X8 b" S. L                          - L; p0 r3 Y- i/ U+ V) Q
             首先来看与ChatGPT类似的技术:有监督精调、RLHF和提示构建。
5 |, g8 `" S# G; L" n             有监督精调,尤其指中文方面的数据精调。百度基于对中国语言文化和中国应用场景的理解,筛选了特定的数据来训练模型。
, X* b+ P5 v9 u  P% b                          - X2 {. h+ j  S, l
             至于人类反馈的强化学习(RLHF)和提示构建,操作上也与ChatGPT大差不差。4 w- {1 D5 {1 o6 X. D6 J; e* G
                          % G# u( k& g! A; `2 ^6 i& S- j
             随后是百度提出的、用于进一步改善模型效果的技术。6 ?* a* F+ B+ s' S# B
             知识增强,包括知识内化和知识外用两个部分。其中,知识内化即将知识“渗透”进模型参数中;知识外用指的是模型可以直接使用外部的知识。
7 c. y+ N' D& ]1 q! x                          
- {; u  G6 ^5 M, m* @5 l" {6 r$ p: I             检索增强,则与百度搜索引擎积累的检索技术有关。) l/ s2 O4 C9 N0 W2 b- U
             百度将把检索技术和生成技术结合起来,先对内容进行检索后,将比较有用的部分用于生成,再整合输出结果:  o+ H4 G6 s7 ]5 ^7 g4 ]! J5 L
                          / Z: C+ U6 Z) x, V6 b+ R; F! X
             最后是对话增强部分,包括之前百度积累的记忆机制、上下文理解和对话规划等技术:
+ a! K1 ^7 L& _5 F3 ?                          1 e: a  V2 x& C3 ]" u
             概括来看,文心一言表现出的能力,被李彦宏称为“智能涌现”:% q/ Q3 }1 p' W+ O4 h7 F3 G% L  Q/ o
             当参数达到千亿量级,训练语料达到足够多的情况下,这种现象就会发生。. G7 \4 x6 g3 _9 y5 d
             目前,百度拥有的AI技术可以分为四个部分,芯片(昆仑芯)、框架(飞桨)、模型(文心)和应用。
$ q1 O' o/ J- ]" M) \( H7 H             之所以软硬件都要布局,百度称,是为了降低成本; s. _: Q8 O2 x; f5 F) t
             生成式AI需求的算力非常高,费用相当昂贵。/ i* `$ V* ~) t/ [7 a! b) ^
             因此,如果在四层架构之间相互进行协同优化,就能让它的效率比别人更高,从而显著降低成本。
- h& u9 ?' k! q3 ?             李彦宏认为,这也正是百度的优势所在:3 j! p9 r/ T+ T9 Z6 n4 L) x/ w7 r9 D
             四层都有领先产品的公司,绝无仅有。
( m" ]' Y! i8 [" v: j$ a                          
0 o8 B8 n) d5 B; f' d8 @             这次文心大模型背后的硬件算力,也是通过百度智能云提供服务。) W- x$ u: b! g
             目前,文心一言已经接入百度搜索,目的在于提升搜索资源效率。
5 J$ K) c+ J1 {1 g  k             同时,包括小度和自动驾驶Apollo等产品,以及爱奇艺等公司也已经接入百度的文心一言模型。( C* D' L* k- K8 k% s
                          . `4 s% i& B8 V5 U# I+ F
             网友:看来还不用提前退休( _% U0 o; T% a& T, M; w+ w
             截至发稿,百度港股股价在一波明显下跌之后,有所回弹。
7 v7 z* B& }  \! e4 U. T                          7 n+ m$ p. I) H* F# i# G
             发布会结束,网友反应最多的是“提前录制有点败好感”:' I# e: q8 d+ ]' g' W& [8 R( t1 X
                          
% P. ~: l3 l% a6 e                          6 I* d! R: f$ P% b! f8 Y
             对于这一点,李彦宏的解释是,给出的问题都比较长,为了节约现场时间,所以才用了提前录制的形式。) f3 D( @# m) B  s
             还有不少网友对文心一言展示出的能力不太满意。有人调侃,看完之后感觉“提前退休的日子看起来还可以缓一缓”:$ Y6 o. g% r$ ?! J5 \9 ~
                          
! F( ]; y( I8 g0 p8 n& L+ h3 h; t. r+ B! K             离GPT-4还差了20个老胡。
  [) ?. x; N5 U- X                          " }. O  F8 Y% n* ~$ {2 u3 I. w
             还有网友感觉,文心一言的发布会像极了毕业答辩的自己(doge):
" o+ W7 |: r: v/ }/ H' Z                          & v; m2 {: p" O
             不过也有网友表示,希望能给国产产品一点时间一点耐心。( F: f% d8 v4 ^, O; P( z" m
                          
+ J6 s! y* ]3 o, c' h             发布会末尾,王海峰宣布,文心一言将从今天开始对外进行测试,包括个人用户和企业用户。
' f" u) E. ]! W3 q* b! Y2 P             是骡子是马,相信接下来,会得到更多验证。% I. p1 F4 M8 X2 L
             One More Thing6 j+ G  |! K% s) }
             对了,有网友表示,已经拿到了文心一言的内测资格:
+ a6 ]) x+ R& m# f+ R4 s! c& I             你好,感谢您体验文心一言,体验地址:
2 O( Y2 R- H: N  s6 Y             https://yiyan.baidu.com/welcome,希望您在体验当中给予更多意见,文心一言邀请码:KFCVME50RMB,2023年3月16日24:00前有效。
5 E* n3 f; i0 y9 P) g  ?+ A             嗯,万物疯狂星期四(手动狗头)。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

帖子地址: 

梦想之都-俊月星空 优酷自频道欢迎您 http://i.youku.com/zhaojun917
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /6 下一条

QQ|手机版|小黑屋|梦想之都-俊月星空 ( 粤ICP备18056059号 )|网站地图

GMT+8, 2025-8-26 23:38 , Processed in 0.042873 second(s), 24 queries .

Powered by Mxzdjyxk! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表