京东6.18大促主会场领京享红包更优惠

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 1648|回复: 0

15亿参数的GPT-2被两个CS硕士复制出来了,没有语言建模经验,花了5万美元

[复制链接]

13

主题

0

回帖

10

积分

新手上路

积分
10
发表于 2019-8-24 15:03:59 | 显示全部楼层 |阅读模式 来自 中国
机器之心报道

' M! i& X( a5 B2 a7 I, N参与:杜伟、张倩
前几天,OpenAI 发布了 7.74 亿参数量的新一版 GPT-2,并表示将在几个月之内发布 15.58 亿参数量的完整版本。但还没等到完整版官宣,有人就已经等不及了,索性自己动手复制了一个 15 亿参数量的 GPT-2,并将其命名为 OpenGPT-2。项目作者是来自布朗大学的两位硕士研究生,他们复制 GPT-2 的花费大约是 5 万美元。

4 `; l6 O" W. M6 T4 i$ `% y7 k3 v

9 J# D' ^- i+ p# c项目的两位作者:Aaron Gokaslan 和 Vanya Cohen 。
' i: x4 Y  c8 ]# S9 ?5 W& ]读者可以在 Google Colab 上访问该模型并生成文本。( o3 f+ \/ T( k1 F7 t
Google Colab 地址:https://colab.research.google.com/drive/1esbpDOorf7DQJV8GXWON24c-EQrSKOit. [" g) O8 ^: g9 \; W8 T8 F$ I. l
0 L2 g& t! O# r4 H0 S
模型权重:https://drive.google.com/drive/u/0/folders/1KfK5MXtvgH8C615UUZoKPIUVJYIdJxX1
$ _4 ?2 y. j7 ^
作者表示,复制 GPT-2 没有那么难,论文中的很多结果都是他们两人可以复制的,并且二人并没有语言建模的经验。所以,只要你感兴趣(壕),你也能自己复制一份。1 z: d  U6 Z3 a+ a
5 o0 ~7 f. Y; f' H

+ q! @% q' J, g1 I复制方法和成本
1 v7 ~7 W; b/ Z7 B! p/ o0 m* b! c% F9 v
OpenGPT-2 的实现基于 Grover 模型,通过修改它们的代码库来达到 GPT-2 的语言建模训练目标。由于 Grover 模型是在类似的大型语料库上进行训练,所以很多代码和超参数很容易重复使用。他们也没有对 Grover 的超参数进行大量修改。5 ]! x" I& }; o) v3 T" v
- d- O/ u3 Z- ~# W3 p5 A- |, ~" f# U
至于成本嘛,他们使用自己的代码从零开始训练 GPT-2 模型大约花费了 5 万美元。但需要注意的是,5 万美元只是云计算的估算成本,没有包含更细微的内在成本(在其他效率更低的易用计算资源上训练模型的效果会更差)。
$ M( I* A" G. Q* W3 @' ?2 P* v& u: s9 v$ [& |, @1 k  J
数据集: J6 L; d2 t3 B7 r0 `

5 @8 g7 W" F9 V, t, g' p4 iOpenAI GPT-2 的原始论文中有对清理数据集的详解。在该论文中,Open AI 的研究人员用到了一个名为 WebText 的数据集,其中包含数百万个网页。6 ~3 y9 X' L7 p: G

. C4 r6 ~) ]/ W7 T论文地址:https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf
2 ^# \) }2 G5 }, `0 i! X5 @2 j+ H' G. o4 {: k3 l- ^; L2 D
如 WebText 一样,本文中的两位研究者首先解析 Reddit 上 3 个 up-vote 以上的所有链接。同时,他们利用了 Pushshift Reddit scrape 数据集,该数据集集合了持续更新的 Reddit 帖子、评论和有关元数据。然后,作者对这些链接进行过滤,删除那些不太可能包含有用文本或 HTML 的文件类型(即视频文件、PDF 和 CSS 格式文件)的直接链接。
7 }0 i# V4 q5 D) v/ W
8 G9 x; O+ j. s: ?9 _此外,作者还过滤了网页,以删除被各种评估基准和数据集所使用的 Wikipedia 内容。他们并不能确定自己的过滤方法是否符合 OpenAI 的标准。因此,他们使用 Newspaper Python 库从 HTML 网页上提取文本,然后使用 fastText Python 库只过滤掉英文文本。
8 X6 I( n: ^: p" \" ~9 j0 J$ Q4 Z, h6 ^  n0 K6 ]
具体来说,作者使用了 WhatTheLang python Wrapper。他们利用局部敏感哈希(locally sensitive hashing,LSH)删除这些文档。最后,他们将这些文档散列到了 5-gram 的集合中,并删除了相似度阈值大于 0.5 的所有文档。) f4 V* u: \% l5 g; I% o% z, {

. X/ @% n9 B' S/ r9 M3 I7 l! t作者还从数据集中删除了 token 数少于 128 的文档。这些短文档往往质量较低。作者将这一数据集作为 OpenWebTextCorpus 发布。2 P+ T  Y  b; U& {/ S" a  h

  }  o! q! t/ ?3 @数据集链接:https://skylion007.github.io/OpenWebTextCorpus/: f, q& w( S$ _, V5 A% E

+ @  p/ |8 a  W0 m% T- p6 l在编码数据集时,作者使用了 Radford 等人发布的适用于小模型的 Binary Pattern 编码器。他们还利用 OpenWebText 网页爬取代码库的修订版作为自身数据集集合的起始点。
; [8 r7 `1 B1 _* V* s
; C0 N* y; |1 }3 }7 U3 y3 B从公开发布的 WebText 的 26 万篇文档的集合来看,作者发现所有文档的双字节编码(BPE)长度最小为 40,最大为 1024。而 OpenWebText 的不同之处在于作者将文档长度的最低值设为 128 个 token(替代 BPE),并且不限制文档最大长度。此外,原始 WebTextCorpus 是在这些样本可用之前发布的,因此作者没有使用这些信息来生成清理启发式。* D5 O2 f( }9 o& n. W. ~( v6 H) X
" q" E. x5 _( ~: j& ~
尽管在训练分布上存在差异,作者依然得出了与多数数据集接近的困惑度。
2 o# ?; P/ }4 K5 f* G
" ~: S, X) S' K' h

7 K( q% y0 h( D; L8 _! D效果# }. c# t( M9 T, g; T  e
5 l/ d$ P% i0 ?, Y
两位作者在 medium 博客中展示了 OpenGPT-2 的生成效果。他们提供给模型的提示为:「Recycling is good for the world. NO! YOU COULD NOT BE MORE WRONG!!」,输入模型之后得到了以下输出:
+ T# \, `$ Z  V7 F' M5 j) U5 q4 g2 v- E. {2 a( U: _

6 ^3 S( |! ^4 y/ d$ J: Z' j: _" f' E7 _) h
reddit 网友也根据作者给出的连接进行了测试,并将测试结果与 OpenAI 前几天公布的 7.74 亿参数量版本进行了对比。有人表示:5 Q( E1 L6 s( q! `4 T+ K6 I
我使用相同的提示分别测试了 OpenGPT-2 和 OpenAI 的 GPT-2 7.74 亿参数版本,结果还是 OpenAI 的输出效果更好,所以作者的复制过程或许存在一些问题。
2 p2 ^* l# j, p) a/ j+ @8 G
3 P8 Q% T2 n, d) Q8 G! w* n5 k2 d
当然,也有人认为 OpenGPT-2 的效果更好:
& h: B  ~. R. h; y, s+ _$ n7 Y% K2 g% M* d0 \# D- p# T

7 u" }( r. A2 n$ p  O4 q# m3 f
我认为作者的 OpenGPT-2 效果优于 OpenAI 的 GPT-2 7.74 亿参数版本,但还不足以用来制造令人信服的假新闻。几次尝试输入「Shocking revelation! Vladimir Putin and Donald Trump are」,我得出了以下效果最佳的文本。该文本能够更长时间地保持语义连贯性,语句也更有意义,但还是比较容易被识破。但不可否认,OpenGPT-2 对研究确实很有帮助。, Y1 i! p3 v5 g$ b5 C, Y

& n, Y/ T0 d2 P2 l0 Y* h3 Q4 M但我还有一个疑问,OpenGPT-2 到底只是把它读过的文本随机组合到一起,还是真正地创造出了新文本。

9 u7 o; z* I3 t5 m+ i& l9 B/ I" Y1 U& x0 g5 W0 V. J
  b( w( V7 b5 Z) H9 Z5 k# m8 b2 s1 Z
- i5 Q+ Q" k& I3 h, |0 j
至于 OpenGPT-2 的生成效果究竟如何,大家可以根据文中提供的链接测试一下。- b) p0 a7 `3 u3 G: x  @& b
! h8 ^/ T, O9 V+ G9 S! o
参考链接:: M( y. U. [9 N! }6 `; k# q
4 T, p% _, v4 d9 K! h' ~
% n8 y6 J7 M2 B" i
9 i$ r/ j: \6 `% r9 _0 y" }
https://www.reddit.com/r/MachineLearning/comments/cu9xgi/p_opengpt2_we_replicated_gpt2_because_you_can_too/
9 E! G" T6 s# E- R8 Z" s# K6 Chttps://medium.com/@vanya_cohen/opengpt-2-we-replicated-gpt-2-because-you-can-too-45e34e6d36dc( B. W0 _5 v* ^6 q" S. \

: W# d9 e6 C5 S! t+ j1 ?' q
$ o; A! p( ]* P6 U2 U% H/ A
# Y" c( _; S# b; s8 U
WAIC 2019 开发者日
将于 8 月 31 日在上海世博中心举办,包含 1 个主单元、4 个分单元、黑客马拉松比赛和开发者诊所互动区。

' }4 W1 S" d7 U1 x2 A/ K; M( Y6 t

4 Q& i# y; x/ M- B
届时,全球顶尖 AI 专家、技术大牛、知名企业代表以及数千名开发者将齐聚上海,围绕人工智能前沿理论技术和开发实践进行分享与解读。
" Q- c+ }  |8 U1 R% E! g: p
点击阅读原文,立即报名。

0 F4 V) B! O$ o3 V# S0 p- J
8 v1 o2 |6 T2 {' B; R2 E, v# f

( n4 j& r$ G5 M来源:http://mp.weixin.qq.com/s?src=11&timestamp=1566630003&ver=1809&signature=lixpkgck3Jci-PJs9nuYQ2-e-AoYyRsK9T2JfY8UTHbrfqeLiSdjvkGmvntU-OVvGe8*llf7XPaBdBKSdmrL7CrALKS1LX-KQs*HOTH8twOu5W3TN*s6mdYxiqgYsckc&new=1
- j) M2 ]+ a) Z# |免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

帖子地址: 

梦想之都-俊月星空 优酷自频道欢迎您 http://i.youku.com/zhaojun917
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|梦想之都-俊月星空 ( 粤ICP备18056059号 )|网站地图

GMT+8, 2026-3-1 11:12 , Processed in 0.059130 second(s), 28 queries .

Powered by Mxzdjyxk! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表