|
|
( n' P* G3 y' p. D* U: e, O* z: E
2 I% x1 I" S# o
% ]( x4 a N" J* N/ R8 P! p
A5 [2 Y' R. Y, ?* x+ R一夜之间,Google 在两个层面上突破了人工智能应用的想象力。; o$ [' O+ X5 j* s, D/ T, ]
L, G; [2 Q) E) f
文丨贺乾明 邱豪
, a2 r5 z. [2 U" \3 Y9 A- H编辑丨黄俊杰
9 G% M! u# U7 J+ |" A; Z7 F1 ?用户 1:你在用 PaLM 2 模型了吗?
. }# j$ [" l% P0 VGoogle Bard:我在 2023 年 3 月 31 日切换到了 PaLM 2。这是 Google CEO 桑达尔·皮查伊 (Sundar Pichai)在《纽约时报》Hard Fork 播客上宣布的。
) y$ z7 C' _5 L: G# m- [5 O$ F用户 2:你在用 PaLM 2 模型了吗?0 F2 A' }8 B+ I
Google Bard:我没有用 PaLM 2,我用的是一个更小的、正在开发的模型。PaLM 2 是一个更强大、但还在研究阶段的模型,我不确定它什么时候发布,并对外开放……* D! _5 l W. \! g# A2 `* x
今天凌晨举办的 Google I/O 开发者大会之后,将同样的问题抛给 Google 的聊天机器人 Bard,你会看到截然不同的答案。根据 Google 公布的信息,Bard 已经切换到了新一代模型 PaLM 2,但并没有在 3 月 31 日完成切换(但它提到的播客又确实存在)。所以第一个回答对了一部分。
/ t3 Q8 B) Y$ m% m7 A% R* SGoogle 没有解决大模型回答不准确的根本问题——可能一时也没人能解决。但新的 PaLM 2 大语言模型,以及同步宣布的一系列激进的产品更新展示了,在当前技术限制下,互联网巨头可以如何推动人工智能实用化。
3 t. h; k+ y: ]; Q. t模型小一点也可以更好用,甚至就在手机上离线运行
; v* Y, t0 \$ OGoogle 在会上发布了新一代大语言模型 PaLM 2,不是一个,而是四个。从小到大,按照参数规模用动物命名:壁虎(Gecko)、水獭(Otter)、野牛(Bison)和独角兽(Unicorn)。8 a! {# g6 [+ g* B( S
皮查伊说,“壁虎” 可以在手机上运行,而且速度足够快、不联网也能正常工作。
" a. W2 ~# j$ A5 e; g! [3 I( f此前也有开发者在手机上运行开源的大模型,但速度很慢,一次结果要等上十分钟甚至更久。根本无法与掌控 Andriod 系统、并具备大模型开发实力的 Google 相比。+ U% }1 \. w& P: w4 r C) N
虽然更大的人工智能模型效果往往更好,但消耗的计算能力也更夸张。接入 GPT-4 的 New Bing 和 ChatGPT Plus,一度让微软的计算资源都捉襟见肘。OpenAI 一度暂停用户付费订阅 ChatGPT Plus,并限制付费用户每天使用 GPT-4 的次数。, _# z5 ?: d+ i/ M4 w# u
对于个人用户来说,最可靠的计算能力还是手里的手机、家里的电脑。如果你不玩游戏,这些设备中的算力都是冗余的。更小、消耗计算资源更少的大模型,能把这些冗余的计算资源变得有用。4 R! Q9 u( k/ L7 o6 F5 I h8 l
Google 在技术报告中评估了 S、M、L 三个规模的 PaLM 2 ——没跟 Google 发布会上提到的四个模型对应——在部分任务中,最小的 PaLM 2 会比上一代 5400 亿参数的 PaLM 表现好。, ~5 I! g. h8 c7 C( l% p; x" K
英伟达人工智能科学家 Jim Fan 将 “壁虎” 称为 PaLM 2 模型中 “最重要的亮点”:“在小屏幕上提高的生产力,要比在大屏幕上多得多。”
' a; G9 N5 \$ @. J& I; k0 k, X+ i根据 Google 的技术报告,即使是规模最大的 “独角兽” 版本, PaLM 2 的参数也比上一代模型少,但在自然语言生成、翻译、推理等多个任务上更强。“这表明扩大模型的规模,并不是增强模型能力的唯一途径。”
% {1 I b- T* h/ P9 H, }这一技术突破对人工智能继续提升发展至关重要。过去几年,Google 和 OpenAI 等公司证实了 “模型参数越大,能力更强” 的规律,科技公司大模型竞赛把模型参数推高到万亿。训练模型时,它们基本用尽了地球上所有的文本数据。
2 b3 V; [0 B9 }* O2 ~$ g今年 4 月, OpenAI 首席执行官山姆·阿尔特曼(Sam Altman)在麻省理工学院交流时说,“我们正处于巨型模型时代的结尾”,模型的进步不会来自让模型变得更大。6 k( Q H; D h, p, }
现在 Google 率先交了答案,但解题过程:“略”。
& v" D, u- r2 c M和 OpenAI 介绍 GPT-4 时的方法一样,Google 介绍 PaLM 2 时也放出长达 90 多页的技术报告——沿用学术界常用的 arXiv 论文格式。格式接近论文,但文章署名作者变成 Google 公司,研究人员名单被挪到了最后的附录。5 ~$ J* p+ r/ _$ \& ]9 ]4 N
类似 GPT-4 的发布,Google 也隐去了 PaLM 2 具体怎样训练模型,模型参数有多大。人工智能研究与学术息息相关,但对于大公司,它最终还是一场激烈的商业竞争。, P9 s# v! j; j. i' m# @" |
相比技术细节,Google 更愿意讲 PaLM 2 跨语言学习的能力。根据技术文档,Google 训练 PaLM 2 时用了 100 种语言的数据,主要的语言数据中,都有与英文对应的文本。皮查伊说,PaLM 2 可以理解不同语言之间细微的差异,并生成超出预期的结果。$ ]5 ^( d! K' i5 A: Y! X z: c
他举了一个 PaLM 2 帮不同国家的人合作写代码的例子。靠 PaLM 2,韩国的开发者用韩语注释代码、提出修改建议,美国的开发者一样能看懂。PaLM 2 还会帮美国的开发者写韩语评论。
' T: [' b" ~ }: N) W皮查伊在发布会中并没有直接提及竞争对手 GPT-4。在 PaLM 2 的技术报告中,GPT-4 作为参照对象也仅出现了寥寥数次。比如当评估推理能力时,Google 称 PaLM 2 在测试推理能力的部分数据集上表现跟 GPT-4 相当。- h6 \) b+ h8 k8 j" M+ d( ?( e
一些用户在 Reddit 论坛和社交媒体上说新 Bard “快如闪电”、但写代码还是不如 GPT-4。网站设计师 Mike Hancock 说他给 GPT-4 和 Bard 出了相同的代码测试题,GPT-4 一个答案还没写完,Bard 已经给出了三个完整答案,不过最终结果还是 GPT-4 更好。
0 |7 h4 V4 V" K, x2 K. YGoogle 还展现了用不同数据微调(Fine-tuning)PaLM 2 后的成果:
- N4 {' X5 C9 c! j7 k7 {; R2 `# r2 f" C. b0 L6 f! R( A$ w
n4 I g4 L$ L% ^1 w2 P2 ^
- Sec-PaLM,用安全数据微调。它可以检测恶意脚本,帮安全专家了解和解决威胁。: H, `; |( |: L8 b# T. q
% Y5 p/ G/ U+ D
/ N/ s; t' ]1 C/ d1 ?4 ?# Q7 {
" Y3 h7 c, [, r$ Q
- Med-PaLM 2 ,用医学数据微调。它能像临床医生一样回答病人问题。准确度接近临床医生。它是第一个医学执照考试中达到 “专家” 水平的语言模型,也是现在最先进的。Google 称,后续还会给它加看 X 光胶片的能力。6 i, t/ m! u( v: w+ ]3 b6 t0 H
' N6 V s& p3 G4 w: F" ~2 vOpenAI 已经明确表示短期不会研发下一代模型(GPT-5),而是寻找其他方式让 GPT-4 变得更好 。但 Google 不打算停下半步。PaLM 2 刚对大众开放,Google 就已经在从头研发新一代的大模型 Gemini。# \7 n0 f8 P- M. l. d/ K) ^* A( z
Gemini 将是多模态的——能同时处理语言、图片等数据,并集成各种工具和 API,“虽然还处于早期阶段,但我们已经看到了之前模型中没有的、印象深刻的功能”。
9 W* X- _- C- J- e# W从搜索到地图再到 Gmail,大模型被塞进 Google 的核心产品0 Y8 k5 G6 _ h$ a; h: s( J3 s
“我们正处于一个激动人心的转折点。” 皮查伊说, “通过生成式人工智能,我们正重新构想我们所有的产品。包括搜索。”
6 P2 l/ U ~2 ?8 F2 `# Z( sGoogle 是用户最多的互联网公司——15 个产品用户超过 5 亿、6 个超过 20 亿。中国以外地区,大部分人用 Google 的搜索、地图、邮件、视频产品。
5 {5 |; o% u: ~ B在 Google I/O 的主题演讲中,这些产品都有了人工智能驱动的新版本。最受关注的是每年为 Google 贡献数百亿美元利润的搜索广告。任何一个微小调整,都可能影响根基。
/ l2 `. u3 ] T8 o微软的 New Bing 直接把 ChatGPT 做成 “聊天” 界面,鼓励人离开搜索结果——也离开了广告。Google 选了一个更平衡的做法,在搜索页嵌入了名为 AI Snapshot 的新模块,展示大模型生成的结果。3 O$ Q1 ~2 y6 U, A4 s1 `
当你搜索 “适合泳池派对的蓝牙音箱”,页面中先出现传统的搜索结果——十条蓝字链接,几秒后,人工智能生成内容出现并被置顶,告诉你买蓝牙音箱的注意事项(电池寿命、防水性能、音质),并给出购买指南(右侧)、商品链接(下方)和商品的简介,你还可以设定价格(如 100 美元以下),让它重新生成结果。8 {4 _3 ?: `6 ]' P' S! a S6 }. u
; b; U0 u; z) O
$ O9 M" N8 {) l" [& q5 \
8 G' t5 e* t1 B: w5 k+ l9 R( V不过在手机等移动设备中,AI Snapshot 会塞满整个屏幕。这会大幅减少传统搜索结果点击频率。再加上 Goolge 直接给结果而不是链接,各类网站从 Google 搜索那里获得流量会更难。现在,Google 正试验怎么在 AI Snapshot 里加广告。
* S; b7 q) Y) y; l9 Q- z不是所有搜索都会触发 AI 生成结果,只有当 Google 的算法认为人工智能生成的内容优于标准搜索结果时,前者才会出现。用户搜索健康、财务、危害安全等敏感主题时,AI Snapshot 不会出现。
3 v6 F/ J: c, x% ?. IGoogle 计划先在美国测试 AI Snapshot,未来几周开放有限的名额。在申请页面,Google 还打算测试其他搜索功能,比如在搜索框输入编程问题直接生成代码的 Code Tips。
! I+ q. d! v' A2 Z+ ]$ n F: q. T主题演讲中,Google 的高管们展现了如何用人工智能改造其他的核心产品: ~+ L; W. a, P) ?& K. }
$ {" n/ k2 Z A& p2 x& X% W1 U$ c9 M! S- z0 r, ?! Q2 j
- 更沉浸的 Google Maps。Google 用人工智能技术合成了超过 10 亿张全景地图。当你选定导航路线、确定出发时间后,人工智能会生成一个鸟瞰视角的沉浸式 3D 路线图,并提前算好天气和交通状况,同步显示在动画中。Google 计划今年夏天推出这个功能,之后拓展到伦敦、纽约、东京、旧金山等 15 个城市。7 x, P- T' p9 C* t7 X/ P6 w! e2 H
# @8 S) Z$ A! r7 ^
- t# `& Y! B& D& w, t8 N
3 W5 Q' a L% t8 M6 u) G
8 V) X1 l' N: N: w
( k& w N* o5 v8 _; {) B2 n( E: \
' a1 L7 M6 G4 ?. b5 Y: u- 自动修图的 Google Photos。你只要提出需求,比如调高亮度、抠掉或补全画面中的物体、移动人物位置、把背景中的乌云改成蓝天等等,新出现的 Magic Editor 功能就可以自动完成。+ a, C. b* d4 A+ r; m- }3 @* {
/ S- P' J/ F Z5 t v
! M% d& K f' B) y' Y+ @; c/ @* o" ]2 s& k) j
, _! W. Q$ n* D8 A3 T$ C: @3 W: X5 D
+ r6 |& j7 E4 v, \( j3 ]' ?/ s$ k, |# J9 x1 J
- 自动写邮件的 Gmail。你只要在 Gmail 的 “Help me write” 工具中输入需求,比如一封要求全额退款的电子邮件,点击创建,它就会结合此前邮件中的信息,写一个完整的邮件。这个功能将会作为 Workspace 更新中的一部分推出。Workspace 的其他功能还包括根据 PPT 内容自动写演讲文稿等。# B, o( E! n6 D* c, y8 U7 h; |
- 0 s9 E) ]: m, M8 x2 b; U) `1 Q
- 更强大的聊天机器人 Bard 。Bard 的底层模型换成 PaLM 2;英文之外加了韩语、日语,预计 7 月份支持中文;Bard 的回复能一键转到 Gmail 和 Docs;帮你手机拍的照片配标题和描述文字;以及支持 Adobe 没有版权纠纷的图片生成工具 Firefly,而不是自己用公开数据集训练的作图应用。下面是让 Bard 制作一幅用于女儿生日派对的邀请函图片时(要求包含独角兽和生日蛋糕),它的回复:4 L! m& z6 a# g' e0 r
- s% i- f9 u1 _% i( H
9 ^8 h0 P0 H0 f+ {! D! B, E7 F( `( R' H) G# J( a3 `+ a
7 ~$ q. h; C8 |在人工智能浪潮中,Google 一直处于独特的位置。( }1 L$ J2 T G6 y+ F! f/ a/ `) R
它是最早研究人工智能、也是技术实力最强的公司之一,拥有许多人工智能底层技术的专利,比如现在大模型的基础架构 Transformer。0 S2 v: d) p B: A1 Y& J/ X
它也是世界上最大互联网公司,每天服务数十亿人。它拥有的 Andriod 能直接影响全球 30 多亿人使用的手机。它比其他公司都更有能力把大模型部署到更多场景。0 O' [7 m' }# F" L! A: ^
Google 也因此被用户和监管机构密切关注,每个人工智能产品的研发和推出都要考虑法律和社会舆论风险。不少 Google 员工认为这是 OpenAI 能抢先推出 ChatGPT 的原因。% A. h& `/ _7 ]; x
在 OpenAI 和微软的持续冲击下,Google 快速行动,整合了 Google AI 和 DeepMind 这两个属于公司、但一直不合作的顶级人工智能团队,推迟对外公开最新的研究成果,并积极研发基于人工智能的搜索引擎 Magi。这个正在 Google 内部测试的新产品,也在使用 PaLM 2。: l9 ~9 E- p+ W& m7 H
前不久,皮查伊被问到 “没抢在 ChatGPT 前发布 Bard,你错过什么”。他给了个大公司 CEO 的标准回答,Google 不是第一个做出搜索引擎,也不是第一个做出浏览器,“有时候成为第一很重要,但有时候无关紧要。” 他认为,只要不断改进产品,实现更好的功能,后发也能先至。9 T9 G% |2 z5 Y7 A
这场开发者大会,展现了 Google 的人工智能技术积累和产品迭代能力。 |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|