|
|
社交平台Reddit不想再让科技巨头们免费使用海量数据了。
$ @$ P m/ R5 K+ A当地时间4月18日,据《纽约时报》,Reddit近日表示,计划开始向访问其应用程序编程接口(API) 的公司收费,外部企业可以通过付费下载和处理社交网络中的海量对话。
7 `4 E9 `# S5 `0 ?8 w公开资料显示,Reddit被称为“美国版百度贴吧”,是一家拥有18年历史的社交媒体平台,用户可以在上面发帖、评论、交流各种话题。% m1 T/ \# }. F$ n
近年来,Reddit上发布的聊天内容已成为谷歌、OpenAI和微软等公司的训练素材,这些公司正在搜集和使用Reddit平台上的对话来开发ChatGPT等生成式人工智能产品。
% @* ?4 l% l# L“Reddit的数据语料库非常有价值,”Reddit创始人兼CEO史蒂夫·霍夫曼在接受《纽约时报》采访时表示,“但我们不想把这些内容免费提供给一些巨头公司。”% F5 e8 v2 C0 d! N
Reddit也成为首批公开表态要求科技巨头付费使用数据的企业。' x7 u" H7 O, Q: `
“这些人工智能公司使用Reddit数据创造价值,却不将任何价值返回给Reddit用户,这是不合理的。”霍夫曼认为,在他看来,为此向这些科技巨头收费是一个公平的举措。5 x7 H5 g( `! M4 r+ I M
据《纽约时报》,谷歌、Open AI和微软尚未回应此事。谷歌开发的聊天机器人Bard的底层算法部分是在Reddit数据上训练的,OpenAI的ChatGPT也引用Reddit数据作为接受培训的信息来源之一。
! g! f/ ~% [8 v; wReddit尚未公开具体的收费规则和种类,外界预期将根据数据大小实行分类价格。
1 Z2 x0 L t) A/ R, F霍夫曼表示,Reddit的API将继续免费提供给希望构建应用程序,帮助人们使用Reddit的开发人员,出于非商业目的研究Reddit数据的研究人员也可以继续免费访问。! C* b- S% h b) C' u
未来,Reddit希望将更多机器学习纳入网站应用中,例如用来识别Reddit上人工智能生成文本的使用,并添加标签来通知用户该评论来自机器人。同时,还将支持论坛管理员使用帮助监控用户发帖内容的第三方机器人,方便管理。
5 R+ N7 ?9 [7 c6 w" rReddit此举或许与其今年计划IPO(首次公开募股)有关。6 X" Y B: S: k1 v( Z
Reddit成立于2005年,主要收入来源于平台上的广告和电子商务交易。Reddit表示,它仍在敲定API访问收费的细节,并将在未来几周内公布价格。0 g8 b, A+ a; b6 A8 b3 Y2 c# g
值得注意的是,除了Reddit之外,其他公司也逐渐不再愿意免费提供平台数据。当地时间4月19日,美国消费者新闻与商业频道(CNBC)报道,社交媒体推特CEO埃隆•马斯克威胁要起诉微软。马斯克指责微软非法使用其社交媒体推特上的数据,以训练其人工智能模型。
0 C- v5 |; [3 O! F! s9 J此前有媒体报道,微软的广告平台将停止支持推特,因为推特更改了其API的定价。马斯克在这条推文下留言,“他们非法使用推特数据进行训练。诉讼时间到了。”根据推特的新定价,API用户(包括企业和研究机构)每月至少需要支付高达4.2万美元才可使用。' K! M0 K# y" o! p8 b2 \1 A. V
据CNBC报道,类似于GPT的大型语言模型需要TB级数据库(存储数据量为1TB以上)进行训练,其中大部分数据从社交网站Reddit、程序员问答社区StackOverflow和推特等网站中抓取——来自社交网络的培训数据非常有价值,因为其具有非正式场合的交互对话。 |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|