京东6.18大促主会场领京享红包更优惠

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 502|回复: 0

用 ChatGPT 作弊,小心被抓,反剽窃水印技术让学生噩梦提前到来 ...

[复制链接]

1669

主题

670

回帖

7043

积分

论坛元老

积分
7043
发表于 2023-1-28 17:42:36 | 显示全部楼层 |阅读模式 来自 中国
机器之心报道& w# ^+ {) C) v7 l, a1 G
机器之心编辑部# ?, _& v4 K) p
利用 ChatGPT 等 AI 模型作弊引发了人们广泛的担忧,而水印正成为解决该问题的一把「利剑」。& O$ K7 N: B/ d" g
近一段时间以来,对话式 AI 模型 ChatGPT 的风头无两。有人用;还有人用 ChatGPT 写神经网络,做到了一字不改结果很好用。然而,ChatGPT 在学校作业、论文发表等领域引发了人们广泛的担忧,并采取了相应的措施。
! x5 j* E5 @* k1 月初,纽约市教育官员宣布禁止学生在公立学校使用 ChatGPT 的消息引发了争论;人们对 ChatGPT 的担忧已经蔓延到了 AI 学界自身,全球知名机器学习会议之一的 ICML 最近也宣布禁止发表包含由 ChatGPT 和其他类似系统生成内容的论文,以免出现「意外后果」。7 t8 L$ c/ s: H8 H+ |5 u
针对这些反馈,ChatGPT 的提出者 OpenAI 正在努力开发缓解措施,帮助人们检测由 AI 自动生成的文本。OpenAI CEO Sam Altman 提出将尝试水印技术和其他技术来标记 ChatGPT 生成的内容,但又表示不可能做到完美。
& [% j3 t* v& @. a# X+ Q, V大型语言模型的潜在危害,可通过给模型的输出加水印来缓解,即把信号嵌入到生成的文本中,这些信号对人类来说是不可见的,但算法可以从短范围的 token 中检测到。( R( n$ \5 x; @2 S% W* R$ S$ A- {: u
本文中,来自马里兰大学的几位研究者针对 ChatGPT 等语言模型输出的水印进行了深入研究。他们提出了一种高效水印框架,水印的嵌入对文本质量的影响忽略不计,可以使用高效的开源算法进行检测,而无需访问语言模型的 API 或参数。此外,本文方法可以检测到比较短的合成文本(少至 25 个 tokens),同时使得人类文本在统计学上不可能被标记为机器生成。
7 K  c0 s& ?- K7 O. z* m- K, j, c
7 z4 x, @$ W5 G2 f- Y* f/ l8 _% ^! y
$ E  p9 B" u/ H8 v) u+ h4 d
* j2 P, T, G4 J9 T6 z& O  ]! [论文地址:https://arxiv.org/pdf/2301.10226v1.pdf
: D9 T: b4 Z2 ?' j本文中提出的水印具有以下属性:' s6 x/ U; M1 m+ S- G; n
可以在不了解模型参数或不访问语言模型 API 的情况下通过算法检测,因此即使模型不开源,检测算法也能开源。同时得益于 LLM 不需要加载或运行,检测成本低且速度快;
4 N& Y2 |4 F( `& a可以使用标准语言模型生成带水印的文本,无需重新训练;, s9 P8 ?2 u* q, l5 d& [
只从生成文本的连续部分检测到水印,这样当使用生成的一部分创建更大的文档时,水印依然可以检测到;
8 m9 J4 e& G4 b4 t3 ^如果不修改生成 tokens 的很大一部分,则无法删除水印;
" f( |$ p( r5 `2 {8 D8 T对已经检测到的水印计算出严格的统计学置信度。
7 x* j& G5 `7 b2 L9 g  {& x- r论文作者:我们有 99.999999999994% 信心
4 B6 K# f& a* ~& Q马里兰大学副教授、论文作者之一 Tom Goldstein 表示:「OpenAI 正在计划阻止 ChatGPT 用户的一些作弊行为,与此同时,我们通过水印输出的方式来辨别是否由 ChatGPT 生成的内容。在一个具有 1.3B 参数的模型中,一种新的语言模型水印框架在仅 23 个单词中检测出了 LLM 生成的文本,我们有 99.999999999994% 信心检测到。」
5 N+ q/ ]) G6 t1 j# b: i6 O9 |
/ t6 m9 b3 L. e6 z- u6 w
5 F# e. S- p& h! D% Z- B& \+ k3 N9 c5 O
- s$ b1 A7 y# E# e

, y4 }0 [4 \+ |1 G8 U/ a4 ]: ]有人毫不夸张的表示,这篇论文标志着 LLM 剽窃和反剽窃检查器之间的竞赛已经开始。% x% }& n/ M. ~% z& J
该方法的出现,也让网友替学生们捏了一把汗,直呼「振作起来,高中生们!」# M+ M: R5 `6 L, X4 U3 L0 x8 g

4 o/ V6 Z$ D$ F. x
7 G" S# u8 u% t$ b' M3 C: l4 T. _# a# y: `- Q, Q2 d" v
在方法介绍部分,首先该研究介绍了一种简单的水印方法(hard blacklist watermark),该水印易于分析、易于检测且难以删除。该方法通过生成禁止出现的 token 黑名单来工作。在检测水印中,生成水印文本需要访问语言模型,而检测水印则不需要。拥有哈希函数和随机数生成器知识的第三方可以为每个 token 重新生成黑名单,并计算违反黑名单规则的次数。1 R0 c1 \# h$ k) |  g

3 o; B0 `# J# N# [  s: C+ n- V
4 @/ I5 b; y7 e7 z- ]& A$ |* X  y6 y! T6 a$ h: q7 P# {6 J9 H
除此以外,该研究还使用了一种称为 soft 水印的检测方法,该算法并没有严格禁止黑名单 token,而是在白名单 token 的对数上增加了一个常数 δ,算法如下:* t7 J0 M% t- q# ^$ C4 m6 t& a9 c% W

. y  E. g& ~2 V" W$ i8 I8 Y5 F) ?' m* h( g7 z  V/ f0 z" X# g, x
: @7 L" ?) c3 w9 `- B+ ]
上述水印算法被设计为公开的,其实该算法也可以在私有模式下运行,使用一个随机密钥,该密钥用来保密并托管在 API 上。如果攻击者不知道用于生成黑名单的密钥,那么攻击者就难以删除水印,因为攻击者不知道哪些 token 被列入黑名单。
1 ?5 u' l! h' ]- ~0 V$ y/ q# {7 D4 x研究者表示,该水印检测算法可以公开,使第三方(例如社交媒体平台)能够自行运行,也可以保持私有并在 API 后面运行。9 D8 P7 g9 [" M2 R6 R
实验
3 s7 j0 ^! g: m& S* z! S实验使用 OPT-1.3B 模型探索了水印效果。为了模拟各种语言建模场景,该研究从 C4 数据集的子集中随机选择文本进行切片和切块。3 `" _3 Z9 x, ?9 c& F. L5 W# |9 ?; Z/ r
图 2(左)显示了各种水印参数组合的水印强度(z 分数)和文本质量(困惑度)之间的权衡。
, O1 J# V) A7 ~6 D8 z! r4 A- g0 _' e8 u& ]* P2 ?
, {- s0 R. q$ @: ^$ s- G. v

: f& X$ \+ T9 T1 Y$ Y1 P% a1 h  v该研究在表 2 中提供了各种水印参数的错误率表,此外,该研究还在图 4 中的 ROC 图表中扫描了一系列阈值。
6 R& L* [4 i* S; l9 w7 ?3 F" T# t$ U0 {9 V- K! o

" }8 Q. ]2 D" R! \# Y$ a3 m2 y8 U
* {+ Z9 b8 s) b/ A7 B, _/ D
: b' p+ t% _- v/ x( M
4 ?! n# u& ?; e+ A, l( a# E$ M更多技术细节请参阅原论文。" i# x& T& E0 }2 m$ O, H
THE END ! y$ V8 _) `) x
投稿或寻求报道:content@jiqizhixin.com

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

帖子地址: 

梦想之都-俊月星空 优酷自频道欢迎您 http://i.youku.com/zhaojun917
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|梦想之都-俊月星空 ( 粤ICP备18056059号 )|网站地图

GMT+8, 2026-4-22 06:34 , Processed in 0.039616 second(s), 24 queries .

Powered by Mxzdjyxk! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表