京东6.18大促主会场领京享红包更优惠

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 447|回复: 0

大厂大模型:久违的一把手工程

[复制链接]

1686

主题

678

回帖

6657

积分

论坛元老

积分
6657
发表于 2023-4-7 14:20:42 | 显示全部楼层 |阅读模式 来自 江苏南通

2 ~( A. T8 K' p8 l5 z! v! X' s
, E. F+ x# B# ^1 c8 b$ Y
& l' \* B+ A' u/ t! S4 [: l4 C
" W0 V& h/ z2 z. Q& a
没有犹豫的时间,共识很快达成。  j3 h3 f- {  ], i* x/ B! i: [

- H0 M  p: F' O+ S采访丨程曼祺 时娴 祝颖丽7 ~; ^6 h# ^; I
文丨程曼祺 张家豪* m7 Z* E3 N! Z1 f
编辑丨程曼祺
* {4 a, I2 [& P7 d. T( e7 O最近 4 个月,整个世界因 ChatGPT 进入快进状态。几乎每隔几周,最近是每隔几天,就有人工智能新进展刷新新闻版面,也刷新人们的认知。0 V1 q% }+ v8 U
面对 ChatGPT 和背后的大模型机会,中国科技大公司的共性是,一把手亲自跟进。
0 D2 Z* i( Q$ c  }4 `: p" S字节跳动创始人张一鸣开始看人工智能论文了。一位字节人士称,张一鸣近期时常会和一些字节人士分享论文学习心得和对 ChatGPT 的思考。他在两年前已卸任字节跳动全球 CEO,但依然是字节重大战略的筹谋者。
% H/ X8 s" c0 \: n, S- M阿里巴巴董事局主席兼 CEO 张勇忙着对阿里做大重组,但也亲自盯阿里的人工智能新项目,阿里将在 4 月 11 日举行的云峰会上发布大模型进展。. J9 L3 s5 ]+ W
在百度开始文心一言内测前,百度创始人兼 CEO 李彦宏每晚和项目团队开会,他们为筹备产品甚至一度睡在公司。/ ~1 \, B: i/ R* |2 N
腾讯和华为管理层也公开表达了对大模型的重视。3 月底,腾讯总裁刘炽平在财报电话会上说,生成式人工智能可成为腾讯已有业务,如社交、游戏的 “倍增器”,也可帮助开拓数字助手、搜索等新增长线;腾讯正在加速推进大模型 “混元”。
& b6 n9 a! `+ m( {$ o. V) h+ I. {华为创始人任正非 3 月中旬参加华为 “难题揭榜火花奖” 颁奖座谈会时称,华为会做底层算力平台:“未来 AI 大模型会风起云涌,不只微软一家。ChatGPT 把计算、管道流量撑大,华为的产品就有了机会。”6 g: U$ Y* C* R  C; A6 e* d
中国互联网和科技行业,很久没有像这样同时瞄准一个目标了。即使是疫情前各公司密集进入,押注重金的社区团购买菜业务,也没有如今的景象。
; O4 e% M4 w; H" l  I* }除上述最被关注的公司外,从 GLUE(通用语言理解测评)、 CLUE(中文语言理解测评)榜单看,快手、美团、京东等互联网公司,科大讯飞、商汤等人工智能公司,和 OPPO、vivo 等智能硬件公司也都发布了自己的大模型。
' U& p3 j% \- _" @5 j& E" H* T没有犹豫的时间,共识很快达成。与过去更多处理特定任务的人工智能不同,以大模型为基础的人工智能要通用得多,它既可以帮你列出采访马斯克的问题,也能给出一份能源市场分析框架,仅靠简单的语言描述,它就能生成一幅奇幻风景或 logo 设计草图,甚至是动态视频。- N4 i1 A0 Z: b- @
在前沿技术的跨国流通不再那么通畅的今天,中国市场需要自己的大模型。能提供本土最好大模型的公司,会获得极高商业回报。这一新技术可能很大程度改变人们获取信息(搜索)、与人互动(社交)、创造内容(游戏、短视频、知识工作等)的方式与效率。; C1 h- s; J$ N  ~1 i& h# ~
OpenAI 并未公布过训练 GPT 系列模型的成本,据估算,即使是三年前训练 GPT-3 时,花费也高达上千万美元。大公司更有资源跟进这一高门槛方向,但他们也需要解决一连串大公司转身时的挑战,其中很多不仅关于技术。
7 B! n4 T8 Y! t( U0 A  S# _" Y" J一个共识:同时做模型层和产品层
; A" p, z1 I  {5 {已相对清晰的是,多数中国大公司都在同时做大模型和基于模型的应用。这是在跟随 OpenAI 的实践。1 `1 f8 x& m% p) \
ChatGPT 本身是一个应用层产品,它背后是 OpenAI 自 2018 年陆续推出的 GPT(Generative Pre-trained Transformer)生成式语言大模型系列。后者是前者的技术底座和能力支撑,前者为后者持续提供用户反馈与新数据。二者构成一个循环飞轮。
( K* y# J+ o% u: a% D8 `; V" B/ I具体应用方向上,综合公开报道和我们了解的信息。字节将在抖音、TikTok 搜索和图片 / 视频生成方向发力。字节可能会在抖音、TikTok 中推出类似微软问答搜索引擎 New Bing 的功能。图片 / 视频生成则主要服务字节商业化需求,以帮助字节广告客户更方便、低成本地制作视频。一位字节人士称,字节广告客户投放总成本里有 10%-20% 为视频制作成本,从去年开始,字节已在开发一些相关产品帮广告客户压缩这部分投入。6 [( A  Z# j1 Y" T, |# v, S8 S
去年 6 月腾讯发布混元大模型时称,混元已被用来理解广告内容,以帮助更精准地把广告投放给特定人群,该模型也已在向广告主提供图像、视频生成能力。微信搜一搜功能今年也已应用了混元大模型,让搜索结果的相关性排序变得更准确。5 R% w) T( E$ O) f: G4 c" q
微信去年 10 月也推出了数百亿参数的通用语言大模型 WeLM,有续写故事、翻译、扮演角色的能力,比如你可以通过 WeLM 问马斯克,收购了 Twitter 后他准备怎么干。
: h' b* d1 n- w2 E( o+ {7 `: y阿里可能会结合云、电商场景,推出基于大模型的一些新服务或功能。大模型与云的结合思路与百度类似。电商的以文搜图找产品、精准推荐、数字人直播、店铺广告物料生成和产品内容生成等流程上都有大模型和生成式 AI 技术的用武之地。阿里智能音箱天猫精灵近期也在做技术测试,接入了大模型能力以实现更好的多轮对话效果。; u+ f. W0 W. ~$ V+ Y2 {
阿里还在研发类似 ChatGPT 的对话机器人产品形态,3 月底已对员工开放内测。一名参加测试的阿里人士称,它的运算能力还比较差,会算错个位数加减乘除,整理周报时会自己生成几条原周报里没写的事。据了解,下周举行的阿里云峰会上可能会公布相关进展,该产品不会直接 to C,测试对话形态主要是为了让企业客户体验产品能力。* u* w. o$ F% E+ {
百度的大模型目前的内部应用方向有搜索、云服务、小度智能音箱和智能交通 / 自动驾驶等。搜索产品形态可能也类似 New Bing;百度智能云预计未来会开放大模型 API 接口,以帮助合作伙伴搭建具体应用,或直接提供一些打包好的 SaaS 产品;在智能交通上,百度地图本周推出的新版本中已嵌入了文心大模型能力,百度称新版本可优化交通调度效率,还能让地图更好地理解用户发出的指示,节省沟通时间。
5 Z# y# }" e2 }) w' O9 M- B4 L( B5 x, k阿里和百度都已在建设大模型生态,即以云平台输出模型能力,支撑更多应用生长。阿里在去年的云栖大会上提出了 MaaS(模型即服务,Models as a Service),李彦宏在半个月前发布文心一言时也提及了这一概念。阿里去年 11 月初推出模型社区 “魔搭”,上线时汇集了达摩院的 300 多个开源模型。百度在其深度学习框架飞桨平台中设置了供开发者调用的 “模型库”。  i' }% `9 z: w! |* ?! W9 q
字节跳动:今年初组建团队,横跨多国、多部门
9 ^& r) ~* w7 w沿着 OpenAI 蹚出的路,同时做模型和应用的中国各科技公司均拉出了多部门协作阵容:由有资深人工智能背景的技术高管领头模型层开发,同时调集产品团队支持基于模型的应用。
9 v9 {" q% v% y7 u' v字节今年初才开始组建专门的大模型团队。但集结颇为迅速,参与部门众多,国内国外均有分布。
" [9 o0 N. {0 t1 i& N3 ~这之前,字节于 2021 年底调整组织架构,分立六个事业部(抖音、大力教育、飞书、火山引擎、游戏和 TikTok);同时保留了独立于业务的中台技术部门,做通用底层技术;另有一些技术团队分流到了不同事业部,汇报给事业部负责人。
8 ~) ^2 T! n# O, j据《晚点 LatePost》了解,目前参与字节大模型的技术负责人有朱文佳、项亮、李航等,他们分属字节多个部门。+ t+ l3 g9 I1 |
6 |) ^" y+ @, p
3 }5 c' S8 j. l6 `

: G$ B2 y3 R9 ?- M9 I其中朱文佳是字节大模型的第一负责人。他是 TikTok 产品技术负责人,字节搜索部门也向他汇报。字节大模型的主要应用方向之一即是优化抖音或 TikTok 的搜索。4 {$ s+ n$ a+ @! j
项亮为技术中台下的 Data-AML(数据-应用机器学习) 负责人,他是推荐算法的重要贡献者。AML 近期新成立了一个与大模型有关的项目 ByteBM。去年离开阿里巴巴达摩院,后加入字节跳动的杨红霞即在项亮团队。她曾担任达摩院资深算法专家,是阿里 2021 年发布的多模态大模型 M6 的核心技术人员之一。" `! K1 }9 d( k& y
李航是字节 AL Lab(人工智能实验室)总监,他曾担任华为诺亚方舟实验室主任和首席科学家,2017 年加入字节,研究方向包括信息检索、自然语言处理、机器学习、数据挖掘等。AI Lab 旗下 NLP(自然语言处理组)组也在参与大模型开发,直接负责人为陈家泽,他 2017 年从北大计算机系硕士毕业后加入字节任算法工程师。7 s4 U; p1 b: ?0 {
一位字节人士评价,从学术研究到业务落地的光谱上,李航在最左端,中间是项亮,最右是朱文佳,他有 “综合的工程和技术管理经验”。# `' u8 a8 N! ?+ i
朱文佳 2015 年加入字节,这之前他在百度担任搜索部主任架构师,研究方向为推荐算法。2019 年,朱成为今日头条 CEO,2021 年 2 月,调任为 TikTok 产品技术负责人。
- W, ]( R7 P4 J) C1 F: }  V* j( U在产品与应用上,字节在 2019 年推出了巨量创意平台,可以帮广告客户制作视频内容,降低制作门槛和成本,大模型会进一步提升内容生成的质量和效率。该平台隶属字节商业化产品与技术团队,总负责人为刘小兵,他曾任谷歌大脑软件工程技术负责人,2018 年加入字节。
; G% n: ?# E. }# y# ]8 A) W3 ?字节参与大模型的团队分布在多个国家,朱文佳的团队在新加坡,项亮团队在美国西雅图,李航领导的 AI Lab 在北京。8 @& N* p! J' F
大模型是中美两国政府关注的人工智能前沿技术,它的发展也离不开高端计算芯片和海量数据。未来字节将如何安排大模型团队的中美分布和分工还不确定。
! |- u9 _( c' A  k! l9 }3 [9 w百度、阿里、腾讯:首席科学家挂帅,过去数年经历人才流失9 r' V; G- }  ^. o* v( O
百度、阿里、腾讯的大模型团队,均由集团内技术一号位或首席科学家负责。+ L0 e; x/ @% p8 s$ \* |6 V

  H; v5 A4 `8 C# b4 {3 ?

    7 d1 g0 w5 E. ^2 F/ P# @
  • 在 ChatGPT 引发的热潮前,这 3 家公司均已发布过大模型:
    ) R- t6 m- K% H# \! g* r2 O
  • 百度于 2019 年推出 ERNIE 1.0,即后来的文心大模型,目前已更新到 3.0 版本;
    3 Q; i% D+ c# L! s8 a# I) N
  • 阿里于 2021 年连续发布语言大模型 Plug(后更名为 AliceMind)和多模态大模型 M6,去年 9 月,两个大模型合并为阿里通义大模型;+ L$ ]' v. h  A+ O
  • 腾讯在 2022 年 6 月发布混元大模型,目前更新至 2.0 版本。腾讯微信团队去年 10 月也发布了大模型 WeML。4 V1 N8 K) w3 l9 L

  ?& K" l" P$ j  N: d* P6 N! k3 C% N7 x5 O& n2 W

; O8 N3 J6 h0 ^& q( t6 f1 v* W! {5 A! w# L! W. a
综合此前报道和我们了解的信息。百度大模型的开发由百度 CTO 王海峰领衔,他也是文心一言产品的第一负责人。王海峰之下,百度集团副总裁吴甜的团队是开发自然语言处理技术的主要团队。吴甜于 2006 年加入百度,2010 年进入自然语言处理部,2020 年升任副总裁,整体负责百度 AI 技术平台和智能云 AI 产品。: C2 j( L  i/ H* o' m0 t4 ^
阿里达摩院自 2020 年初开始同时研发多模态大模型和语言大模型,目前阿里的大模型研发仍放在达摩院,负责人为阿里云智能 CTO 周靖人。他毕业于中国科学技术大学,获哥伦比亚大学计算机博士学位,曾任微软前研发合伙人,2016 年加入阿里,任阿里云首席科学家。
  w: A; d, z  S  g4 R具体参与大模型开发的是达摩院 AI 团队,包括当年推出 M6 的达摩院旗下智能计算实验室和推出 AliceMind 的语言技术实验室。其中智能计算实验室主任为周靖人本人,语言实验室现主任为黄非,他向周靖人汇报。黄非毕业于卡耐基梅隆大学计算机学院,2018 年加盟达摩院,曾在 IBM 和 Meta 研发自然语言处理技术。阿里两个实验室目前共有约百名研发人员参与大模型开发。0 Q6 O/ S" `! W: p! j4 c' b
腾讯则在 2023 年初组建了混元助手项目组。据《36 氪》报道,该项目由腾讯最高级(17 级)研究员、腾讯首席科学家张正友负责,其下有数名产品经理和组长参与,他们来自腾讯不同的事业群,包括技术工程事业群(TEG)、平台与内容事业群(PCG)和云与智慧产业事业群(CSIG)等。跨事业群开发具体产品在腾讯相对少见,这侧面反映了管理层对大模型的重视。8 N$ f4 @& y. b2 A( v" t. _" ^
相对独立的微信团队,也开发了自己的大模型,即 WeML。据项目官网,其最新更新日期是去年 10 月。腾讯在大模型上是否也会进行多团队 “赛马” 还不确定。( |3 `* G( ]9 R5 n4 _$ T
百度、阿里、腾讯都集结了公司最好的技术力量投入大模型,不过他们过去几年流失了一些重要的人工智能人才。
) J( m. M; o' j* P* @& ^腾讯大模型负责人张正友专长于机器人,他于 1998 年提出 “张氏标定法”,在机器人控制领域影响深远。他最初加入腾讯时担任机器人实验室 RoboticsX 负责人。大模型则更多与自然语言处理技术有关。
2 Q- K+ w  f& u% d; c腾讯本有张潼坐镇这一方向,他在 2017 年春加入腾讯担任 AI Lab 主任。张潼是机器学习领域专家,拥有斯坦福大学计算机硕士、博士学位,曾任美国新泽西州立大学终身教授,IBM 研究院研究员和雅虎研究院主任科学家,研究领域包括计算机视觉、语音识别、自然语言处理和机器学习等。& J: b1 m* V# s! H+ D" u/ }: e
2018 年 12 月,张潼离开腾讯重返学界,加入香港科技大学,张正友接任 AI Lab 主任。2019 年-2021 年,离开腾讯的人工智能专家还有腾讯优图实验室前联合负责人贾佳亚,腾讯原副总裁、AI Lab 创始人姚星等,他们都选择了创业。
* J, l9 ]# t& F3 E阿里达摩院近年也有多位科学家离开。据《晚点 LatePost》了解,与大模型直接相关的离职人员除已加入字节的杨红霞,还有去年离职的原语言技术实验室主任司罗,他是阿里两年前启动语言大模型 Plug(AliceMind)时的具体负责人。司罗拥有卡耐基梅隆大学计算机博士学位,曾任美国普渡大学计算机系终身教授,2014 年加入阿里担任 iDST (数据科学与技术研究院)NLP 团队负责人。' H  o7 t( K& [% o* e& L! X3 `2 B0 D
2020 年以来,达摩院还有原副院长金榕,两任自动驾驶负责人王刚、陈俊波等人工智能技术专家离开,金榕加盟推特担任研发 VP,后两者选择创业做清洁机器人。
$ U8 o$ ^0 r: q% y6 c百度是所有中国互联网大公司里,投入人工智能历史最久、曾经的人才阵容也最豪华的公司。自 2013 年百度在美国硅谷建立百度美研到 2017 年间,斯坦福人工智能实验室主任吴恩达、微软亚洲研究院院长张亚勤、微软全球执行副总裁陆奇等人先后加入百度。他们待的时间都不长,在 2018 年前后陆续离开。; W; x7 S- Z9 d
一个有趣的交集是,OpenAI CEO 山姆·阿尔特曼(Sam Altman)从斯坦福退学前,曾在吴恩达管理的人工智能和机器人实验室工作过。
1 p- M7 Q! G0 [$ b: u0 y6 D1 s; e2 x百度还是字节人工智能人才的重要来源。字节的技术负责人杨震原,目前大模型的负责人朱文佳,向朱文佳汇报的搜索负责人乔木均曾就职于百度。+ i& R& u; f' Y" G3 d% R
在如今的大模型热潮下,大公司人才还会被创业潮分流。近期离职的大公司技术高管有阿里达摩院技术副总裁贾扬清,腾讯副总裁、平台与内容事业群(PCG)信息与服务线负责人郄小虎、京东首席科学家陶大程等。
& h5 p# V( W$ ?/ S' j& E贾扬清 2019 年加入阿里前任职于 Facebook,是知名 AI 框架 Caffe 的核心作者,他将在 AI 框架方向创业。郄小虎于 2020 年 9 月加入腾讯,任公司副总裁,负责 PCG 技术线,腾讯工作期间郄小虎参与了图像感知、视频文本检索等技术研究;陶大程是计算机视觉领域的专家之一,2021 年加入京东前,他曾在香港理工大学和新加坡南洋理工大学等高校任教。两人接下来的计划暂不清楚,创业是选项之一。
6 R0 j. \; A+ a% R" X4 A华为是另一家较早推出大模型的中国公司,于 2021 年发布盘古大模型。具体负责人为 2020 年 3 月入职的华为云首席科学家田奇,他此前是美国得州大学圣安东尼奥分校计算机系教授。通过华为 Mindspore AI 框架平台,华为还和中科院、鹏程实验室等机构联合开发了多个大模型,包括蛋白质结构预测大模型 “鹏程·神农”,支持图像生成的多模态大模型 “紫东·太初” 等。
$ A+ K4 A$ W6 }5 I算力和数据:过去有储备,未来面临不确定
0 l. w+ z) V! t7 W* }4 o清晰合理的战略目标,合适的团队与人才外,一家公司能否在大模型上有所建树,还取决于两个关键资源:算力和数据。
# g+ ?- e# F3 M* q8 J' i! r9 S总体而言,中国公司过去两年的云计算、数据中心等算力基础设施开支小于美国大公司。不过就存量看,中国大公司过去有一定算力储备。
; ?+ S6 c1 [& h$ W3 N$ [& q8 ^8 f% W$ A. s. ]. t
7 R% V4 a2 c& d4 P; h) e- e
: q) U5 h" {4 U6 c# B
目前用于训练大模型的主力芯片是英伟达云端训练 GPU A100。据《晚点 LatePost》了解,字节跳动朱文佳团队目前可使用的 A100 约有数千张。为支持大模型开发,字节今年早些时候还将原本计划给商业化团队新增的一批 A100 调给了朱文佳团队。A100 目前的市价约 10 万元人民币 / 块,数千张 A100 的价值达数亿元人民币。! s" w* I6 o3 @3 q4 O2 s
阿里 2021 年时曾披露,在训练十万亿参数的多模态大模型 M6 时,它们使用了 512 张英伟达 V100 GPU。它是 A100 的前序产品,A100 有大约 3 倍的性能提升。/ ]; L( U) d/ z2 z- Z6 h! Z, I# t
华为在 2021 年曾披露,训练盘古大模型时,团队调用了超过 2000 块华为昇腾 910,进行了超 2 个月的训练。不过昇腾 910 最初设计为 7nm 制程,2020 年 9 月后,台积电等芯片代工厂不再能为华为生产高制程芯片。* c3 J8 U( d/ l, s* w) ^" Y7 y
一位关注大模型领域的投资人称,阿里、腾讯、百度、华为等国内主要云厂商过去都积累了大量 GPU。去年大模型热潮未起时,公有云上的 GPU 算力不是紧缺,而是 “愁卖”,云厂商甚至得亏钱卖资源,并与部分公司签订了长期锁价合同,这让热潮前就已入场的一些大模型创业公司 “花更少钱办了更多事”;也侧面说明大厂有一定算力储备。3 x9 o: d; G$ C$ N% n2 ~: Z" h
但再往下,所有中国公司在获得更多算力上都面临不确定性。更多人训练大模型也会进一步加剧算力紧缺。' P/ \, B$ V: `$ b  U" n3 V8 D( ?
去年 8 月底,美国政府宣布禁止美国公司向中国大陆、香港和俄罗斯出口高端 GPU,设定的红线是:算力超过 4800 TOPS,且带宽传输速率超过 600 GB/ 秒,受限产品就包括英伟达 A100 和后续产品 H100。5 i/ t  }  ~; U4 e* g+ D
为绕过这一限制,英伟达推出了 A800,算力与 A100 一致,但传输速率降为 400 GB/ 秒,不在被禁范围。不过这条路仍有变数。美国政府的系列禁令明确指向人工智能,不排除后续有超出预期的更严厉措施。. ?  w9 q; l3 t6 m) X" s. `; z
大模型的训练还需要海量数据。一种观点是,中文数据在数量和深度上均不及英文,所以中文大模型相比国外大模型 “先天不足”。
! F% ^( p+ j! q, _英语是强势语言,除文本量最大外,大量学术论文、专业文献也以英语撰写,高质量的公开英语数据库也更多。英语数据的广度与深度确实强于其它语言。
# t$ `7 @5 h5 i" J8 o- d但数据对模型效果的影响是一个更复杂的问题。包括 GPT 系列大模型在内,主流大模型都基于最早由 Google 研究人员提出的 Transformer 架构,它会对不同人类语言,包括编程语言做高度抽象和压缩,这些语言在底层逻辑上有相似性,中文数据的不足可以部分由其它语言数据弥补。# y5 f, `, g. o+ s7 i. L2 g
大模型创业公司澜舟创始人、微软亚研院原副院长周明说:“现在的中文大模型都是在用多语言训练,语言结构有共通性,一件事如果英语表达得更好,中文也可以借鉴,形成生成结果。”
# t+ T( j) K) _8 [  J3 y, W大公司的数据相比创业公司还有额外优势,他们能获得一些非公开的高质量中文文本数据。部分数据还带有真实的场景属性,如电商平台中的客服沟通数据。
. ]3 C1 L# J! M4 E+ U$ j' n5 m如果把这一波浪潮比喻为大航海,OpenAI 是第一个到达新大陆的人,它已完成了最危险、最不确定的部分,即证明了超大参数模型的可行性和惊人效果。其它公司都是在沿着这个相对确定的方向做复现和优化。李彦宏在发布文心一言后曾说百度有信心在综合能力上,迅速追上甚至超过 ChatGPT。“很快” 可能很难实现,但把时间拉长,学习与模仿将拉平一批公司间的差距。
) f$ B7 z! |0 q- ^$ j8 d3 a变数在于:中国公司未来可能无法通畅地获得更多算力,技术与人才的跨国流动也在变慢,招募更多大模型高端人才变得更难了。
: v! R3 j  t. p9 X. }- m$ K+ l8 }成为中国第一的吸引和被颠覆的危险1 w3 d; p" H* O9 y+ n- x
宏观环境变化的另一面是,在中美市场更加分隔的当下,中国需要自己的大模型。中国市场又尚未出现明显的领先者,这使各大公司加速入场。' M# X/ ]: P( C( V/ C! T8 r
一位字节人士称,在去年底 ChatGPT 出现前,字节对大模型投入还比较少。表现之一是,约有 100 人的字节 AI Lab NLP(自然语言处理)组,只有不到 10 人在研究语言大模型,其它人主要在做翻译和抖音小安(内置于抖音的安全助手,有预防网曝、网络诈骗的功能)的优化。但今年 1 月后,大模型迅速成为 NLP 组重点工作。字节 AI Lab 可能会基于人工智能创业公司 HuggingFace 去年 7 月开源的大模型 BLOOM 做开发,它的参数达到 1760 亿,是目前最大的多语言开源语言模型。
9 i' H3 O. F" ]% @4 `- C% k( r2 L这是低迷两年的互联网市场一个难得的增量空间,如果能在中国市场做到第一,就可能开辟巨大的新市场,或给已有业务,如云计算、游戏、社交等加上 “放大器”。
$ M1 ?* ~& @# t# {2 G( p紧迫也来自,如果大公司自己不做,就有被颠覆的风险。
' h% J! e8 G. r' |# Z" ~以利益分配结果看,技术创新有两种,一种果实多归属成熟公司,一种则会激发一批新巨头。
3 i) g/ P; B( \/ o由 AlphaGO 战胜李世乭引燃的上一轮 AI 热潮更靠近第一种。当时的人工智能技术虽然在识别图片、人脸等一些特定任务上有高效率和准确率,但应用场景有限,且当时的产品不够强大和通用,没有好到足以动摇成熟企业已建立的市场格局。一个例子是,商汤、旷视等人工智能新锐公司在它们最主要的市场安防领域,难以撼动海康、大华的优势地位。
8 V+ W4 `0 z# a大模型则有可能是第二种创新。ChatGPT 和其它生成式 AI 产品及背后的大模型技术,迅速展现出了冲击现有商业模式的力量。% R1 g/ e# R% N" a
文生图应用 Midjourney 去年已获得超 1 亿美元收入,这家公司到去年 10 月只有 10 余名员工。在微软搜索引擎接入 GPT 推出 New Bing 后,Bing 访问量上升了 15.8%,Google 搜索引擎的美国市占率则下降了 1%。上周微软宣布 Bing 日活跃用户首次突破 1 亿,其中 1/3 是新用户。5 e4 t% g" l9 I# K! s
当技术杠杆足够强时,大公司面对新机会时的包袱和协调难题就变得更为明显:! [6 ?0 i$ h  x. z
这包括与主营业务的冲突,Google 在搜索引擎上引入大模型时的犹疑是一个前例,各公司需要在以新技术打造全新产品,和用新技术提升现有业务间做综合安排与取舍。再往下是如何建立相应组织结构和多部门协作机制。相比没有退路的创业公司,当大模型商业进展遇挫时,业务颇多的大公司的热情能持续多久也是问题。大公司还面临更强的监管与伦理风险,大模型可能带来虚假信息和 “不正确” 的言论,亦有隐私问题,各国监管已在更早、更多地干预。部分国家已禁用 ChatGPT。
% o+ G* R2 T( \1 g* `# m中国大公司发布的基于大模型的文本生成类应用,目前均未直接向普通民众大规模开放。文心一言需要内测码才能使用,阿里、腾讯和字节,近期可能都不会发布基于大模型的 to C 对话类产品。
1 j% R, ?* |/ f0 P9 H9 q) V  X# a2 W  Z巨头有更多的钱和资源,但当机会足够大 ,改变足够剧烈时,资源往往不是最难的部分。% N0 @3 l# g* B8 _& T0 S7 q' J

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

帖子地址: 

梦想之都-俊月星空 优酷自频道欢迎您 http://i.youku.com/zhaojun917
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|梦想之都-俊月星空 ( 粤ICP备18056059号 )|网站地图

GMT+8, 2026-2-10 15:46 , Processed in 0.041536 second(s), 24 queries .

Powered by Mxzdjyxk! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表