|
|
社交平台Reddit不想再让科技巨头们免费使用海量数据了。
. B# M, w; C: q% @% t) ]当地时间4月18日,据《纽约时报》,Reddit近日表示,计划开始向访问其应用程序编程接口(API) 的公司收费,外部企业可以通过付费下载和处理社交网络中的海量对话。
* E* |+ U2 E* r& Q公开资料显示,Reddit被称为“美国版百度贴吧”,是一家拥有18年历史的社交媒体平台,用户可以在上面发帖、评论、交流各种话题。
9 y; t( {1 o; ~. n3 G3 \ `近年来,Reddit上发布的聊天内容已成为谷歌、OpenAI和微软等公司的训练素材,这些公司正在搜集和使用Reddit平台上的对话来开发ChatGPT等生成式人工智能产品。, E c9 g/ A j4 X I6 W- n5 _
“Reddit的数据语料库非常有价值,”Reddit创始人兼CEO史蒂夫·霍夫曼在接受《纽约时报》采访时表示,“但我们不想把这些内容免费提供给一些巨头公司。”
9 e: x( m, n$ B) A0 Q, B! NReddit也成为首批公开表态要求科技巨头付费使用数据的企业。. b* m' |/ Z( ?/ p+ u1 v1 q
“这些人工智能公司使用Reddit数据创造价值,却不将任何价值返回给Reddit用户,这是不合理的。”霍夫曼认为,在他看来,为此向这些科技巨头收费是一个公平的举措。
$ O' R( X/ b3 _3 c! ~' ^ H据《纽约时报》,谷歌、Open AI和微软尚未回应此事。谷歌开发的聊天机器人Bard的底层算法部分是在Reddit数据上训练的,OpenAI的ChatGPT也引用Reddit数据作为接受培训的信息来源之一。7 O* P/ \* ]8 z2 |
Reddit尚未公开具体的收费规则和种类,外界预期将根据数据大小实行分类价格。
g1 M, s# v" }6 i! b霍夫曼表示,Reddit的API将继续免费提供给希望构建应用程序,帮助人们使用Reddit的开发人员,出于非商业目的研究Reddit数据的研究人员也可以继续免费访问。0 x) f) X! u6 k' Y
未来,Reddit希望将更多机器学习纳入网站应用中,例如用来识别Reddit上人工智能生成文本的使用,并添加标签来通知用户该评论来自机器人。同时,还将支持论坛管理员使用帮助监控用户发帖内容的第三方机器人,方便管理。
, t* x$ F y# T( u9 r$ QReddit此举或许与其今年计划IPO(首次公开募股)有关。- g: O2 f% N: ]: m2 Y3 X/ H8 _
Reddit成立于2005年,主要收入来源于平台上的广告和电子商务交易。Reddit表示,它仍在敲定API访问收费的细节,并将在未来几周内公布价格。0 }/ u( U( J% ]
值得注意的是,除了Reddit之外,其他公司也逐渐不再愿意免费提供平台数据。当地时间4月19日,美国消费者新闻与商业频道(CNBC)报道,社交媒体推特CEO埃隆•马斯克威胁要起诉微软。马斯克指责微软非法使用其社交媒体推特上的数据,以训练其人工智能模型。5 ~ p" x1 }* J2 v7 F& [
此前有媒体报道,微软的广告平台将停止支持推特,因为推特更改了其API的定价。马斯克在这条推文下留言,“他们非法使用推特数据进行训练。诉讼时间到了。”根据推特的新定价,API用户(包括企业和研究机构)每月至少需要支付高达4.2万美元才可使用。
; e2 [) L6 ]: t/ C- F0 e+ k/ r! t据CNBC报道,类似于GPT的大型语言模型需要TB级数据库(存储数据量为1TB以上)进行训练,其中大部分数据从社交网站Reddit、程序员问答社区StackOverflow和推特等网站中抓取——来自社交网络的培训数据非常有价值,因为其具有非正式场合的交互对话。 |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|