|
|
4 t- ?0 m0 B, X
; b6 j1 V2 N7 p/ F; j& [7 [4 i
新智元报道
! ]' ]* H. x' G" d& J7 g! U/ H, G编辑:编辑部
# l* v$ ^5 i, G4 l; ~0 h! B8 W【新智元导读】2月20日,复旦大学邱锡鹏团队推出中国版ChatGPT「MOSS」。发布当晚,服务器被挤爆。2月21日,复旦MOSS团队致歉,称模型还不成熟。* x$ V5 D% }/ P# e' B6 y
今天,MOSS又火了。不仅登顶知乎热榜,收获近千万流量,还引来诸多媒体竞相报道。& X& @. y* c5 l- A6 B
, K# i' D7 C' N: Q5 `/ C
+ B9 z2 U8 V2 @; ^不过,这次出圈的,不是陪刘培强流浪的MOSS,而是复旦大学研发的中国版ChatGPT。0 q8 W: G2 r/ z1 x+ y: i
9 r" X! v/ i: P/ Y2 |+ ]% o4 q国内首个对话式大型语言模型. t6 m) A4 f; L) q9 Z$ E8 h i
ChatGPT自发布以来,已经收获了全球巨大关注。尤其是在春节后,ChatGPT突然走红,许多网友开始期待中国版聊天机器人的诞生。
, a- u1 }$ u" R9 l+ ?现在,这个愿望得以实现。复旦大学自然语言处理实验室表示,国内第一个对话式大型语言模型「MOSS」已由邱锡鹏教授团队发布至公开平台,邀公众参与内测。; h" V2 E# K$ d% U2 W: C0 `$ E
- g p* f- Y- t" M1 ]9 X( o* ~2 T9 k" U- G( O0 I) v0 E3 z' y
MOSS可以执行一系列任务,如对话生成、编程、事实问答等。官网称,MOSS为生成的语言模型打开所有技术路径,以理解人类意图并具有对话能力。
/ U7 P& w* x9 i W$ O2 KMOSS的出现为国内学术界和业界提供了重要经验,并有助于进一步探索和应用大型语言模型。
2 X+ ^. u, H1 `. J% c: @团队负责人邱锡鹏表示:「尽管MOSS仍有很大的改进空间,但其推出证明,国内科研团队有能力在开发ChatGPT产品的道路上克服重要的技术挑战。」4 E( g# k* ?$ D" \+ v
# j5 L0 l+ `& p, d$ y9 T8 z2 ]) U! K7 V4 J0 L/ [0 z
据悉,MOSS研发项目得到了上海人工智能实验室的大力支持。后期,该项目将会通过开源方式,和行业人士与社区分享。
: t- ~: _7 m7 F# R, Z3 `' t( j开源代码,打造MaaS生态1 V z) Y, P4 H6 z9 w
MOSS的回答语言流畅、逻辑清晰且观点正确。科研团队在演示时,用英文输入多个指令,展示了MOSS多轮交互、表格生成、代码生成和解释能力。
- P n( \& l. k( S「告诉我5部科幻电影。」「生成一张展示这5部电影和导演的表格。」「增加一列表格,显示这些电影上映的时间。」在这个包含表格生成的多轮交互中,MOSS都顺利完成了任务。
8 _& S1 r% k3 J6 @! z) P2 ~- d& f* p3 J0 z4 [) m* \1 M
. g8 D p3 @7 } z. O" m, n然而,MOSS与ChatGPT最大的不同,在于其开源属性。
. |! z. K; o) e" n3 V# Q由于ChatGPT并未开源,其技术解决方案的细节尚未披露,研究人员对此有很多猜测。一些专家认为,ChatGPT是一个复杂的组合系统,无法通过单一的生成语言模型实现。
1 l2 D. J& ?+ D5 ]3 E; p, s/ r作为自然语言处理专家,邱锡鹏近年来一直致力于研究具有多任务学习能力的一般模型。为了探索ChatGPT的技术路线并获得LLM研究的一手经验,他带领团队加快了MOSS的开发。
1 I( ], Y: ]+ Y. v
# [* i% N: L; M( W) {) V3 B( V3 M0 o, k; \' y7 j7 {
MOSS开发的基本步骤与ChatGPT相同,包括两个阶段:自然语言模型的基座训练和理解人类意图的对话能力训练。
4 C0 o( ~1 H2 b' [1 I. O# N在对话能力培训阶段,OpenAI收集了至少数十万条人工指令,要求各行各业的专业标注员编写指令回复,然后将其输入模型库,以帮助ChatGPT逐步理解各种指令。 R1 p1 z0 V9 m+ S$ L3 V
复旦团队采用不同的技术路线,通过允许MOSS与人类和其他对话模式互动,并在短时间内高效完成对话能力培训,从而显著提高学习效率和研发效率。9 {; e: P; m% L
为了提高研发效率,MOSS团队选择开源代码。对此,MOSS模型的官方公告表示:1 {0 Q2 \2 x4 F( \; q
3 O- B$ }1 N3 |. q2 {& Z
预训练大语言模型的研发门槛很高,需要大量算力、训练语料和人工标注。在我国产业界,只有大型机构才有实力开发大模型。 MOSS开源后,可有效降低预训练语言模型的研发和应用门槛,让中小企业在其基础上开发出智能客服、智能家居、人工智能律师等各种垂直类产品。
% z& N+ i) k& `' q7 n1 S推出伊始便开源代码,虽然可以提高数据收集和研发效率,但也不得不称为一个冒险的举动。然而,这也为未来企业的发展提供了一个新的思路:MaaS(基础模型服务)。
- R9 g+ h# f' b R& e在未来,企业或许不需要在大模型领域「卷生卷死」,有了类似于MOSS的高质量LLM,企业只需对已经完备的模型进行微调,就能获得所需的品质良好的垂类产品。
# B4 U) e8 I" M3 E
3 a5 f, ]3 w; W: I. ^取名MOSS,致敬《流浪地球》
" P( A9 N1 c: I9 S! Z# N% h随着MOSS的推出,互联网上出现了怀疑的声音:为什么要叫MOSS?
* x1 `/ U: c2 y3 k4 D2 b6 T$ _* u$ u/ _4 D0 X
: \0 P. t" P4 e+ A
面对「蹭热度」的质疑,MOSS团队发公告予以澄清。公告称:+ }1 _9 _5 G; G r$ l* `
* Z8 R) D1 J! {! F尽管我们的对话模型和《流浪地球》中MOSS的能力不能相提并论,但就像过去NLP领域的其它优秀模型一样,作者们都希望使用自己喜欢的影视角色名称命名自己的模型,我们在训练完成第一代模型的时候,正值流浪地球2热映,片中MOSS给团队每个人都留下了深刻的印象,因此便使用了这样一个名称来指代我们的模型,以表示我们对最前沿AI模型的不懈追求。
8 e: u) u0 `5 Q; m2 U: J% v& T事实上,用大IP给科研项目命名并不是什么新鲜事。ChatGPT基础技术之一的Transformer,其名称来源于大热电影《变形金刚》(Transformer)。
3 Z4 L% }# e, G7 W0 f6 v网友评价0 m! [" n+ _! Q% Q5 M- E7 T
MOSS一上线,官网都快被挤爆了,小编也只能乖乖排队等内测资格啦。, ^. k) e4 [& v3 |! }3 {$ i
9 [% w. Y9 x0 j( Q
! N6 }( e; R% e3 N9 r6 l+ W体验地址:https://moss.fastnlp.top/
3 q2 K/ M/ b0 Q9 K项目地址:https://txsun1997.github.io/blogs/moss.html
f, ^7 O# F7 s0 i不过,根据网上记者的对话以及知乎答友们的评价,咱也能来仔细瞅瞅MOSS了。
) C7 z6 M0 `: F' e+ i$ `文风很AI,但未来可期6 z- a# _1 t( G. U
基于目前已知的信息,「段小草」对Moss的特点进行了总结:# z* A% V# `* ~% F) S
1. 上下文的能力是有的,但不确定能保留多少,毕竟展示出来的上下文对话都不是太长;
5 {- A" @. I* F, B( t, Q) w2. 文风很 AI,不过生成的内容不算长。即使是分 1、2、3、4 点回答的时候,句子也比较短。ChatGPT 一般会生成更长的展开。' C0 w% m) {9 `5 ?4 C
3. 文章中也专门展示了英文能力,但还不确定训练集中不同语言语料的效果。! P. n- k/ X ~3 i
4. 吸取 ChatGPT 和 NewBing 翻车的教训,在上线初期就套上了足够的道德枷锁。
/ U i8 J) V+ b1 h3 O% \5 {最后,「段小草」表示:「希望能尽快体验到产品,也期待看到更多产业落地。」
* M& @: g6 v: u# @7 f' SMOSS回答:
: i; Q/ \$ n, E( A s9 D5 {2 J0 n+ C/ g$ X. {
5 L. N/ a, @( a0 m |5 MChatGPT回答:
' E: V9 R$ G/ ?: }: ~2 q" Q& _" u; b. H' n+ P
4 y5 L& K; w' H5 C% I回答地址:https://www.zhihu.com/question/585248111/answer/29031325799 Z$ p- r5 w+ w7 ?' x! [ y# E, q
给国内AI开了个好头$ `$ r7 m% r S# G! U+ j
的确,MOSS的发布对国内AI的发展肯定大有益处。4 D+ r! h: O0 ?7 u5 E. q% ~
知友「极智视界」表示,在AI领域,技术源于美国而盛行于世界,例如框架类的pytorch、tensorflow,目标检测算法YOLO以及造就ChatGPT的transformer。我们「对标」国外的技术,虽然赶超美国可能做不到,但是「对标」的过程一定会让国内的AI有一个快速的发展。
5 ^2 b9 t0 ?7 ~+ b
- h5 y" P: O0 t7 h6 M+ u2 R2 Y" R' k& B- e3 z
回答地址:https://www.zhihu.com/question/585248111/answer/2903303710- ]) @1 h( i1 J0 n" f5 e6 ]- Q
「极智视界」还提到,国内首个类ChatGPT模型MOSS的发布既符合预期但也有些意外。1 q0 Y; n6 g" f. _' x
符合预期是因为近段时间以来也一直有国内版ChatGPT摩拳擦掌的消息,所以迟早都会来的;意外的是在当前这种强大的利益驱动下,研究机构居然还走到了大厂的前头。
# z! ?" K+ b$ j0 \& N) T7 Y但总的来说这是一个令业界比较振奋的消息,咱们终于可以用上咱们自己的AI问答系统了。
7 [* H5 _! L* w$ M* Y3 O高校的重点还是理论探索, D# N! i% U# y6 U
知友「卜寒兮」表示,想研发出类ChatGPT的产品,需要一个团队能撬动各个方面的资源,还要有过硬的技术做支撑。3 u2 P7 H5 t0 n" c
以ChatGPT为例,单单想要研发出一个成规模的LLM模型,就需要以下四个方面:
4 r# f5 [' U2 o4 H4 @9 {4 o
+ x1 [% r# p1 E8 e6 l& K j# J! f& W
4 \+ ?7 J6 J2 p7 A- X- $ U' `( B2 |% ]! u o; f: D- ~4 U
海量数据的语料库:ChatGPT背后的模型的GPT-3、GPT-3.5系列,初代的GPT-3是2020年发布的,这个模型有1750亿个参数,训练它所使用的语料库包含45TB的数据、约3000亿个单词6 e* `: Q/ ^8 t! s0 `8 a
# m0 ?9 `! r6 z+ A5 [
. t/ B% q+ L5 z% l大量的人力:毕竟ChatGPT成功的背后是时薪不到2美刀的血汗工厂
8 A1 \% q0 I+ ?4 s% ^- | c
% u! P( S1 F- d j
4 `1 ]( ~& {' G" U$ _, a, Q算力的支撑:训练chatGPT这样规模的LLM模型需要目前世界上最强大的GPU来满足算力要求而像NVIDIA Tesla A100这种最新的AI超级计算机芯片已经禁止对国内出售了。国内除了几家互联网大厂,很少有公司有实力能长期投入大量资金在算力上,更不要提校内的科研团队了,靠点科研经费可远远不够。1 V% s& {% B' O" @; y
' y# x# e, `2 |, A
& @# L' k$ M) Q% Z技术上的壁垒:GPT-3的初代版本在2020年就出现了,而到2022年11月首次推出ChatGPT产品,这期间花了三四年的时间迭代不同的版本。这是一个长期的过程,意味着花大量的时间找到关键的训练tricks,反复调参,在不同的训练集上反复训练、微调,并且还有找到合适的训练方法,才能迭代出一个优秀的版本
9 n# B& |0 r5 C+ g5 u4 I' b4 D+ b7 E6 j3 h4 A
8 o; a8 Y7 e/ |# f" F0 u
* y! ?" N! u- k& W0 d: ^
; H3 e, A5 N5 l, {回答地址:https://www.zhihu.com/question/585248111/answer/29031611801 v" N' ?& P$ ^$ P/ `$ e& y6 j1 i! y
目前来看,还真的只有大公司才有能力做得出来。对于高校的科研团队,其优势在于技术和方法上的创新,所以还是要在这方面做更多功夫,为将来有一天该方向的发展做技术储备。
% r5 r; P: x) W, S0 @8 d5 z+ ?! H I7 y" U
复旦MOSS团队:还不成熟& f% t2 u; T. w* p. h1 d9 ^* q2 g c
2月20日,就在MOSS模型公布的当晚,不少测试的网友发现,MOSS已经显示服务器流量过载,只能第二天再重试。
6 _8 E) V M% d5 X7 ]/ ?2月21日,复旦团队在MOSS官网发布公告称:首先非常感谢大家的关注!MOSS还是一个非常不成熟的模型,距离ChatGPT还有很长的路需要走。
1 s8 }' `: b/ @9 s; O0 W" M
$ b2 C% f+ v1 X8 Q: h3 O' T6 w) h# }& n+ C$ q# X+ x
. }3 l+ K; A( Y) }; N
我们一个学术研究的实验室无法做出和ChatGPT能力相近的模型,MOSS只是想在百亿规模参数上探索和验证 ChatGPT的技术路线,并且实现各种对话能力。 我们最初的想法只是想将MOSS进行内测,以便我们可以进一步优化,没有想到会引起这么大的关注,我们的计算资源不足以支持如此大的访问量,并且作为学术团队我们也没有相关的工程经验,给大家造成非常不好的体验和第一印象,在此向大家致以真诚的歉意。 在 MOSS完成初步的验证之后,我们会将MOSS的经验、代码、模型参数开源出来供大家参考。中国版ChatGPT的诞生还需要中国全体AI从业者的努力,也更需要不断。和人交互以提高能力。
, p- b# {( I& O5 v q: F* C$ ]/ ^参考资料:5 C ]- o) H m o4 w
https://txsun1997.github.io/blogs/moss.html1 }+ S" Z3 [9 H/ n' r e' e% ~* }3 t
https://www.zhihu.com/question/5852481114 H% z/ ?$ X4 \: l9 J
https://m.weibo.cn/status/4871507265982631?wm=3333_2001&from=10D2293010&sourcetype=weixin&featurecode=newtitle4 A9 ]& z& u- z
特别鸣谢:(授权转载)
9 @& F0 o& ]8 H; T# |7 |「段小草」https://www.zhihu.com/question/585248111/answer/2903132579
% l ~) k# G! |$ ^( `「极智视界」https://www.zhihu.com/question/585248111/answer/29033037100 w% C$ [6 }' Z; b$ u
「卜寒兮」https://www.zhihu.com/question/585248111/answer/2903161180 |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|