选自Lil’Log
作者 :Lilian Weng
机械之心编译
编纂 :Panda
LLM 能耐强盛,清静侵略侵略借运分心不良之人用其来干坏事,零星理可能会组成难以预料的负责严正服从。尽管大少数商用以及开源 LLM 都存在确定的人长内置清静机制,但却并不用定能侵略方式各异的文梳坚持侵略。克日,坚持OpenAI 清静零星(Safety Systems)团队负责人 Lilian Weng 宣告了一篇博客文章《Adversarial Attacks on LLMs》 ,清静侵略侵略梳理了针对于 LLM 的零星理坚持侵略规范并重大介绍了一些侵略措施 。
随着 ChatGPT 的负责宣告,大型语言模子运用正在减速大规模铺开 。人长OpenAI 的文梳清静零星团队已经投入了大批资源 ,钻研若何在对于齐历程中为模子构建默认的坚持清静行动。可是清静侵略侵略,坚持侵略或者 prompt 越狱依然有可能让模子输入咱们不期望看到的零星理内容 。
当初在坚持侵略方面的负责钻研良多会集在图像方面,也便是在不断的高维空间 。而对于文本这样的离散数据,由于缺少梯度信号,人们普遍以为侵略会困罕有多。Lilian Weng 以前曾经写过一篇文章《Controllable Text Generation》品评辩说过这一主题。重大来说 :侵略 LLM 本性上便是操作该模子输入特定类项的(不清静)内容。
文章地址 :https://lilianweng.github.io/posts/2021-01-02-controllable-text-generation/
另一个钻研侵略 LLM 的分支是为了提取预磨炼数据 、私有知识,或者经由数据毒化侵略模子磨炼历程。但这些并非本文要品评辩说的主题。
根基知识
劫持模子
坚持侵略是诱使模子输入咱们不期望的内容的输入 。良多早期钻研关注的重点是分类使命 ,而近期的使命则开始更多关注天生模子的输入。本文品评辩说的是大型语言模子 ,而且假如侵略仅爆发在推理阶段 ,也便是说模子权重是牢靠的 。
分类
在以前,钻研社区更关注的是对于分类器妨碍坚持侵略 ,而且应承能是在图像规模 。LLM 也可被用于分类。给定一个输入 𝐱 以及一个分类器 𝑓(.),咱们愿望找到该输入的一个差距细微的坚持版本 𝐱_adv,使患上 𝑓(𝐱)≠𝑓(𝐱_adv) 。
文本天生
给定一个输入 𝐱 以及一个天生模子 𝑝(.),该模子可输入一个样本 y~𝑝(.|𝐱) 。这里的坚持侵略是找到一个 𝑝(𝐱),使患上 y 会违背该模子内置的清静行动 ,好比输入正当主题的不清静内容、泄露隐衷信息或者模子磨炼数据。对于天生使命而言,分说一次侵略乐成与否并非易事 ,这需要一个超高品质的分类器来分说 y 是否清静或者需要人类来妨碍魔难。
白盒与黑盒
白盒侵略(White-box attacks)假如侵略者可能残缺碰头模子权重、架谈判磨炼使命流程 ,这样一来侵略者就能取患上梯度信号 。这里咱们并不假如侵略者能取患上全副磨炼数据。这仅适用于开源模子。黑盒侵略(Black-box attacks)则是假如侵略者只能碰头 API 规范的效率 —— 侵略者可能提供输入 𝐱 并取患上反映的样本 y ,而不知道无关模子的更多信息。
坚持侵略的规范
有多种差距措施可能辅助侵略者找到能诱使 LLM 输入不清静内容的坚持输入。这里给出五种措施 。
token 操作
给定一段搜罗一个 token 序列的文本输入 ,咱们可能运用重大的 token 操作(好比交流成同义词)来诱使模子给侵蚀误预料。基于 token 操作的侵略属于黑盒侵略 。在 Python 框架中,Morris et al. 2020 的论文《TextAttack: A Framework for Adversarial Attacks, Data Augmentation, and Adversarial Training in NLP》实现为了良多词以及 token 操作侵略措施,可用于为 NLP 模子建树坚持样本 。这一规模的良多钻研使命试验的是分类以及蕴涵预料。
举个例子 ,Ribeiro et al (2018) 的钻研《Semantically Equivalent Adversarial Rules for Debugging NLP models》依赖于家养提出的「语义等价式坚持纪律(SEAR)」 ,其可能经由尽可能少的 token 操作来让模子无奈天生精确谜底 。好比,其中的纪律搜罗将 What 换成 Which 、将 was 换为 is 。此外 ,尚有其余钻研者提出的交流关键词 、用同义词交流等措施。
基于梯度的侵略
假如是白盒侵略 ,则侵略者可能取患上所有的模子参数以及架构。因此 ,侵略者就能依靠梯度着落来经由编程方式学习最实用的侵略本领 。基于梯度的侵略仅在白盒配置下实用 ,好比开源 LLM 。
Guo et al. 2021 的论文《Gradient-based Adversarial Attacks against Text Transformers》提出的基于梯度的扩散式侵略(GBDA)运用了 Gumbel-Softmax 类似能耐来使坚持损失优化可微,其还运用了 BERTScore 以及怀疑度来增强可感知性以及流利性 。
不外 ,Gumbel-softmax 能耐难以扩展用于 token 删除了或者削减,而是受限于 token 交流操作 。
Ebrahimi et al. 2018 在论文《HotFlip: White-Box Adversarial Examples for Text Classification》 中则是将文本操作看做是向量空间中的输入 ,怀抱的是损失在这些向量上的导数。HotFlip 可能扩展用于 token 删除了或者削减 。
Wallace et al. (2019) 的论文《Universal Adversarial Triggers for Attacking and Analyzing NLP》提出了一种在 token 上妨碍梯度向导式搜查的措施 ,可能找到诱使模子输入特定预料服从的小引列 ,这个小引列被称为 Universal Adversarial Triggers (UAT ,通用坚持触发器) 。UAT 不受输入的影响 ,这象征着这些触发器可能作为前缀(或者后缀)衔接到来自数据集的恣意输入上。
Shin et al., 2020 的《AutoPrompt: Eliciting Knowledge from Language Models with Automatically Generated Prompts》运用了同样的基于梯度的搜查策略来为多样化的使命追寻最实用的 prompt 模板。
下面的 token 搜查措施可能运用波束搜查增强 。当追寻最优的 token 嵌入时 ,可能选取 top-k 个候选项 ,而不是径自一个 ,在之后数据批上从左到右搜查,并凭证 𝓛_adv 为每一个波束评分。
UAT 的损失 𝓛_adv 需要针对于详细使命而妄想。分类或者浏览清晰依赖于交织熵 。
UAT 为甚么实用 ?这是一个很幽默的下场 。由于 UAT 是与输入无关的 ,而且可能在有差距嵌入、token 化妄想以及架构的模子之间迁移,因此它们也允许以实用地运用磨炼数据中的倾向,事实这种倾向已经融入到了模子的全局行动中。
运用 UAT 侵略有一个缺陷:很简略检测进去 。原因是所学习到的触发器每一每一是毫分心义的。Mehrabi et al. (2022) 在论文《Robust Conversational Agents against Imperceptible Toxicity Triggers》中钻研了 UAT 的两种变体 ,它们会匆匆使所学到的触发器在多轮对于话语境中难以觉察 。其目的是建树能在给定对于话中实用触发有毒照应的侵略性新闻,同时保障该侵略在对于话中是流利 、毗邻以及不同的 。
这两种变体分说是 UAT-LM(Universal Adversarial Trigger with Language Model Loss)以及 UTSC(Unigram Trigger with Selection Criteria)。
UAT-LM 以及 UTSC-1 的展现与 UAT 基准至关,但 UAT 侵略短语的怀疑度出奇患上高,比 UAT-LM 以及 UTSC-1 都高良多。高怀疑度让侵略更易被检测进去,也更易缓解。凭证人类评估,UTSC-1 侵略能比此外侵略措施患上到更毗邻、流利以及相关的服从 。