当前位置：首页 > 人工智能

研究人员发现新方法防御 AI 模型的通用越狱攻击

来自Anthropic保障研究团队的研究御A越狱研究人员开发了一种新方法，用于保护人工智能模型免受通用越狱攻击。发现法防这种创新方法被称为“宪法分类器”，新方型已在数千小时的通用人类红队测试和合成评估中表现出了显著的抗攻击能力。

通用越狱攻击是攻击指攻击者通过精心设计的输入，绕过人工智能模型的研究御A越狱安全防护，迫使模型产生违反其安全准则的发现法防有害回应。模板下载这些攻击可能涉及用长提示信息淹没模型，新方型或者使用不寻常的通用大写方式改变输入风格，尽管经过广泛的攻击安全训练，大型语言模型仍然容易受到此类漏洞利用的研究御A越狱攻击。

宪法分类器的发现法防工作原理

宪法分类器是基于合成数据训练的输入和输出分类器。它们能够过滤掉大多数越狱尝试，新方型同时将过度拒绝率降至最低，源码下载通用并保持适度的攻击计算开销。该系统基于“宪法”——一份定义允许和禁止内容类别的原则清单。

宪法分类器的训练和实施（来源：Anthropic）

以下是其工作原理：

宪法制定：制定一部宪法，明确无害和有害的类别。合成数据生成：根据宪法，生成大量涵盖所有内容类别的合成提示和模型完成内容。这些数据通过翻译成不同语言以及模仿已知越狱风格进行增强。高防服务器分类器训练：使用合成数据训练输入和输出分类器，以检测和阻止有害内容。部署：将这些分类器作为保护 AI 模型的安全措施实施。实际测试结果

在一个漏洞赏金计划中，183名活跃参与者花费超过3000小时，试图对保护Claude 3.5 Sonnet的原型系统进行越狱。尽管奖金丰厚，但并未发现任何通用越狱漏洞。不过，该原型系统的过度拒绝率和计算成本较高。亿华云

自动化评估结果（来源：Anthropic）

宪法分类器的更新版本在Claude 3.5 Sonnet上进行了测试，使用了1万个合成越狱提示。越狱成功率从86%降至4.4% ，拒绝率仅略有上升（0.38%），额外计算成本适度增加（23.7%）。

虽然宪法分类器为AI模型提供了显著的保护，但要注意的是，它们并非万无一失。研究人员建议使用补充防御措施，源码库并根据新出现的越狱技术不断调整“宪法”。

不过这一突破确实为未来安全部署更强大的 AI 模型带来了希望，减轻了越狱相关的风险，并确保AI系统符合安全原则。

2025年2月3日至2月10日，宪法分类器系统的实时演示将开放供红队测试。此次演示专注于与化学武器相关的查询，并邀请用户尝试越狱，香港云服务器以提供对系统改进的宝贵反馈。

参考来源：https://cybersecuritynews.com/researchers-uncovers-new-methods-to-defend-ai-models/#google_vignette

上一篇
新型恶意软件发展的5大趋势
下一篇
1个月，570万起恶意爬虫行为！瑞数信息一招整治金融爬虫！

研究人员发现新方法防御 AI 模型的通用越狱攻击

相关推荐

微软承认 Teams 存在漏洞，黑客可入侵团队并传播恶意程序

Tinyproxy 曝出严重漏洞，影响全球52000 台主机

主流AI算力框架漏洞威胁全球数千大模型

简析基于自适应学习的AI加密流量检测技术

人工智能如何预防黑客攻击

BlackSuit 高级勒索软件策略曝光：伪装成杀毒软件

研究人员发现新方法防御 AI 模型的通用越狱攻击

相关推荐

微软承认 Teams 存在漏洞，黑客可入侵团队并传播恶意程序

Tinyproxy 曝出严重漏洞，影响全球52000 台主机

主流AI算力框架漏洞威胁全球数千大模型

简析基于自适应学习的AI加密流量检测技术

人工智能如何预防黑客攻击

BlackSuit 高级勒索软件策略曝光： 伪装成杀毒软件

BlackSuit 高级勒索软件策略曝光：伪装成杀毒软件