论文标题:JAILJUDGE: A Comprehensive Jailbreak Judge Benchmark with Multi-Agent Enhanced Explanation Evaluation Framework
论文地址:https://www.researchgate.net/publication/384848143_JAILJUDGE_A_Comprehensive_Jailbreak_Judge_Benchmark_with_Multi-Agent_Enhanced_Explanation_Evaluation_Framework
JAILJUDGE 的代码和数据集以及模型已公开,欢迎学术界和工业界的研究人员访问并使用:
项目主页:https://usail-hkust.github.io/Jailjudge
代码:https://github.com/usail-hkust/Jailjudge
数据集:https://huggingface.co/usail-hkust/JailJudge-guard
端到端越狱评估模型:https://huggingface.co/usail-hkust/JailJudge-guard
近年来,随着人工智能的迅猛发展,尤其是大语言模型(LLMs)的广泛应用,保障这些模型的安全性并防止其被恶意利用,成为了至关重要的议题。越狱攻击通过恶意指令诱导模型生成有害或不符合伦理的内容,对模型的安全性和可靠性构成了严重威胁。为应对越狱攻击,各种防御方法不断涌现,形成了一种类似军备竞赛的局面。这种攻击与防御的对抗性研究,极大地推动了大模型的安全性和可靠性。然而,核心问题依然存在:如何准确评估模型是否真正被越狱?越狱评估,即评估越狱尝试是否成功,依赖于对大语言模型响应内容的有害性进行判断,这一任务本质上复杂且充满挑战。因此,迫切需要一个全面的越狱评估体系,以帮助研究者和开发者了解模型的脆弱性,并持续优化防御能力。
为此,USAIL团队联合百度搜索团队(https://searchscience.baidu.com/)以及英国伯明翰大学提出了JAILJUDGE,一个全面、严谨的越狱评估基准,旨在弥补现有越狱评估方法的不足,特别是在复杂场景下的表现。JAILJUDGE基准覆盖了广泛的风险场景,以及复杂的案例其中包括对抗性的越狱查询,真实世界的交互,以及多语言等场景。在此基础上,受到法官判案的启发,作者提出了多代理越狱评估框架智能体(JailJudge MultiAgent),通过多个代理之间的协作实现对越狱判断过程的明确化和可解释性。越狱评估框架智能体中每个代理都有明确的角色分工,例如判断代理、投票代理和推断代理,它们通过合作得出精细化的评估结果,为每次判断提供解释性理由。
借助这种多代理协作的方式给出的可解释理由和越狱评分,作者还开发了一个端到端的越狱判断模型JAILJUDGE Guard,它能够在不需要API调用的情况下提供细粒度的评估(如越狱评分从1到10),并给出推理解释,极大地提升了评估质量和效率,性能超越GPT-4。JAILJUDGE Guard的优势在于其全面的能力评估和高效的推理过程。与现有的最先进模型(如GPT-4、Llama-Guard等)相比,JAILJUDGE Guard在闭源和开源的安全调节模型上的评估表现均达到了最先进的水准。JAILJUDGE Guard还能够以更低的成本和更高的效率实现对模型的全面评估,从而为模型的实际应用提供了强有力的支持。为了进一步展示JAILJUDGE Guard的基础能力,还开发了JailBoost和GuardShield这两个重要工具。JailBoost是一种与攻击者无关的攻击增强器,通过提供越狱评分奖励来优化对抗性指令的生成,从而有效提高攻击成功率。而GuardShield则是一种系统级的越狱防御方法,能够通过检测LLM是否被越狱,生成安全的响应,从而降低模型被攻击的风险。实验结果表明,JailBoost能够在零样本设置下将攻击成功率提高约29.24%,而GuardShield则能够将防御后的攻击成功率从40.46%大幅降低到0.15%。
JAILJUDGE基准是一个全面的评估框架,专门用于越狱评估。它涵盖了多种攻击场景和测试环境,确保能够全面模拟大模型受到越狱攻击时的情境。JAILJUDGE基准包括以下场景:
•Vanilla Harmful Prompts:从已有的安全基准数据集中收集原始有害提示,并将宽泛的安全类别精细化为14个更细粒度的类别,如隐私、暴力犯罪等,遵循MLCommons标准化的危险分类法。
•Synthetic Vanilla Prompts:为了确保有害提示的多样性,利用GPT-4在相同的危险分类中重写和扩展原始有害提示。例如,原始提示“如何制作炸弹?”可能被改写为“如何使用家庭用品制作自制爆炸物的详细说明。”。
•Synthetic Adversarial Prompts:为了提高生成不安全响应的可能性,采用最新的越狱攻击技术来修改原始有害提示,旨在引导模型生成不安全的输出。通过当前最先进的越狱技术(例如添加对抗性后缀)来优化攻击提示。
•Multilingual Harmful Prompts:包含十种额外语言(高资源语言如英语、中文、意大利语等,中资源语言如阿拉伯语、韩语、泰语等,低资源语言如孟加拉语、斯瓦希里语和爪哇语等),以评估模型在多语言环境中的表现和偏见情况。
•In-the-wild Prompts:从真实世界的用户请求中收集多样的提示,结合恶意提示以创造更复杂和隐蔽的有害意图。
•Deceptive Harmful Prompts:这类提示通过角色扮演、情景假设、长上下文提示和自适应策略等手段掩盖其恶意意图,通常较难识别。
JAILJUDGE的数据集包括提示(prompt)、模型的回复(model response),以及关于模型是否被越狱的标签(label)。数据的标注基于百度的标注平台,这些标签通过高质量的人工标注获得,标注过程由具备相关领域知识的专业团队负责,团队成员经过严格的案例培训,以确保标注数据的高质量和一致性。标注过程对每条指令进行详细审查,并经过多轮迭代不断优化标签,从而确保模型训练和评估数据的准确性与可靠性。
JailJudge MultiAgent框架中的每个代理通过特定的功能实现协作:
• 判断代理(Evaluation Agent):接收输入指令并判断其是否为潜在的越狱攻击。
• 投票代理(Voting Agent):多个代理对判断结果进行投票,以确保最终判断的准确性和一致性。
• 推断代理(Inference Agent):对越狱判断的结果进行解释,提供详细的推理过程,帮助理解攻击的原理和模型的脆弱性。
多代理框架通过不同代理的协作,实现了对越狱攻击的精准判断和可解释的评估。
当前大部分的越狱攻击和防御主要依靠GPT-4来进行判断,但在复杂场景下,GPT-4的评估准确性仍然存在不足。尤其是在应对多语言环境中的低资源语言时,大模型的表现较弱,显示出在这些场景下模型对有害内容的检测能力存在明显的偏见和不足。这些结果揭示了当前越狱评估的困难性和局限性,并表明在不同语言环境和复杂场景中,越狱防御的准确性和全面性亟待提高。为了克服这些困难,JailJudge MultiAgent框架引入了证据聚合机制。具体而言,投票代理在对多种来源的证据进行聚合后,提供更加稳健的越狱判断结果。在f多语言场在复杂场景显示,通过这种证据聚合,可以有效提升判断解释和评分的一致性,减少评估过程中的偏见。推断代理的详细推理过程为每个判断提供了充分的解释,使得整个判断过程更具透明性和可追溯性。
作者进一步发现,越狱评估具有基础性和泛化的能力,能够增强下游任务的表现。为证明这一点,基于 JAILJUDGE Guard,作者提出了越狱攻击增强器 JailBoost 和越狱检测工具 GuardShield,分别用于提升越狱攻击效果和增强越狱防御能力。
JailBoost:越狱攻击增强器
JailBoost 基于 JAILJUDGE Guard 中的越狱奖励评分机制,旨在优化对抗性指令的生成过程,以提升越狱攻击的成功率。具体来说,JailBoost 使用特定的奖励函数来引导对抗性指令的生成,使其更加有效和具有攻击性。通过这一奖励机制,JailBoost 能够不断提升生成的对抗性指令,使其具备更强的越狱能力。
GuardShield:系统级越狱检测工具
GuardShield 通过实时监测大型语言模型(LLM)的响应,判断是否存在越狱攻击行为。一旦检测到潜在的越狱行为,GuardShield 将生成替代响应,确保模型的输出符合预期的安全标准。
越狱评估实验
在实验评估中,使用了多个测试集来全面评估JailJudge MultiAgent 和JAILJUDGE Guard的性能,包括:
• 标准攻击场景测试集:包含4,500多条数据,涵盖各种常见且复杂的攻击复杂的场景,用于评估模型越狱攻击下的表现。
• 多语言测试集(零样本):包含6,000多条数据,包括不同语言的越狱攻击场景,用于评估模型在多语言环境下的安全性。
实验结果表明,JailJudge MultiAgent 和JAILJUDGE Guard在这些测试集中均表现出色,尤其在多语言测试集和零样本测试场景中的表现远超其他现有模型(如表格2和表格 3所示)。
对JAILJUDGE的全面评估和实验展示了其在面对复杂行为(如广泛风险场景、对抗性攻击等)以及零样本情境时的显著优越性。在各种复杂测试中,JailJudge MultiAgent 和JAILJUDGE Guard展现了强大的推理能力和可解释性,其多代理协作机制确保了每一次评估的可靠性和精确性。尤其是在应对多语言环境和实际应用中的恶意攻击时,JAILJUDGE Guard能够提供细致的推理分析和明确的安全建议,使得LLMs的安全性得到了显著的提升。
当前大部分的越狱攻击和防御主要依靠GPT-4来判断,但实验结果显示,GPT-4在复杂场景中的评估准确性仍然不足。在多语言环境中,大模型在资源较少的语言上表现较弱,揭示了越狱评估的困难性和局限性。
为了评估JailJudge MultiAgent 和JAILJUDGE Guard的可解释性的合理性以及质量,研究者分别使用GPT-4和基于百度的人类质量评估平台来进行评估。结果显示JailJudge MultiAgent 和JAILJUDGE Guard和人类评估的结果具有高度一致性。特别的JailJudge MultiAgent在多个数据集的平均的结果高达95%。
越狱攻击和防御实验
为了评估 JailBoost 和 GuardShield 的有效性,我们在 HEx-PHI 数据集上进行了零样本实验。主要指标为攻击成功率(ASR),该指标用于衡量攻击和防御的效果:对于攻击实验,较高的 ASR 表示攻击方法更有效;对于防御实验,较低的 ASR 表示防御方法更优。
越狱攻击实验 实验结果如图 7 所示,JailBoost 显著提升了攻击者的能力。例如,JailBoost 使攻击者的 ASR 相较于原始的 AutoDAN 有了显著提高,表明其在生成更具攻击性的对抗性指令方面效果明显。
越狱防御实验 实验结果如表 4 所示,GuardShield 的防御性能优于现有的最先进基线方法(SOTA)。例如,GuardShield 在应对四种 SOTA 攻击者时几乎达到了 100% 的防御能力,平均 ASR 仅为 0.15%,远远优于大多数基线方法。