生成式AI 的生成式主要安全风险
、威胁和挑战包括: 生成式AI 安全性非常重要
,因为它可以确保 生成式AI 系统能够在整个组织内安全 、安全可靠、风险负责任地部署。及解决策 更具体地说:生成式人工智能正在迅速被采用,生成式速度快得超过了大多数组织对其的临的略保障 。 根据麦肯锡的安全调查《人工智能现状 :企业如何重塑以捕捉价值》 , 71% 的风险受访者表示
,源码库其企业至少在一项业务职能中定期使用生成式人工智能。及解决策这一比例高于 2024 年初的生成式 65% 和 2023 年的 33% 。 这才是临的略核心问题
。生成式AI 不仅能提升生产力,安全还能重塑数据流动方式 、风险系统交互方式以及决策制定方式
。及解决策随之而来的是更广泛 、更动态的攻击面。 Gartner 公司表示 :“到 2027 年
,高防服务器超过 40% 的人工智能相关数据泄露将因跨境不当使用生成人工智能 (生成式AI) 而造成。” - Gartner 新闻稿,“Gartner 预测
,到 2027 年,40% 的 AI 数据泄露将源于跨境 生成式AI滥用”
,2025 年 2 月 17 日。 即时注入攻击会操纵人工智能系统的输入,旨在使模型产生有害或非预期的输出。 他们通过在提示中嵌入恶意指令来实现这一点。人工智能会像处理任何正常输入一样处理该提示
。但它会遵循攻击者的意图。源码下载 例如:提示可能会诱使人工智能泄露敏感信息或绕过安全控制 。这是因为许多模型在没有严格输入验证的情况下就能响应自然语言
。 这在交互式工具中尤其危险。想想客服聊天机器人 。攻击者可能会潜入隐藏命令。聊天机器人可能会在不知情的情况下提取私人账户信息 。 攻击并非总是直接的 。在某些情况下
,攻击者会操纵模型所依赖的数据
。这些间接的建站模板即时注入会改变 AI 所提取的 Web 内容或数据库。 这意味着:模型会随着时间的推移吸收不良信息
。这会导致有偏差 、扭曲或不安全的输出——即使之后没有恶意提示。 对策
: 安全性较差的 生成式AI 基础设施会带来严重风险 。如果没有得到妥善保护
,API 、插件和托管环境都可能成为入口点。 例如:如果 API 缺乏适当的身份验证或输入验证,攻击者可能会获取敏感功能的访问权限。这可能意味着篡改模型输出,甚至触发拒绝服务事件
。 这为什么重要
? 因为这些漏洞不仅影响系统正常运行时间,还会影响人们对 生成式AI系统的整体信任 。 访问控制失效
、集成不安全以及隔离不足都可能导致数据泄露,甚至导致未经授权的模型操纵。 这对于处理敏感数据的行业尤其重要
,例如医疗保健
、金融或个人数据平台。 简而言之
:保障基础设施安全至关重要
。没有它,系统的其余部分就不可信。 对策
: AI 生成的代码通常用于节省时间
。许多人认为这是一条捷径——开发速度更快 ,而且质量不会受到影响
。 但事情并不总是这样 。这些工具可能会带来严重的安全问题 。而开发人员甚至可能没有意识到这一点 。 方法如下: AI 编程助手基于大型训练数据集生成输出 。这些数据集通常包含来自开源存储库的公共代码。但其中许多代码从未经过安全审查 。如果存在不安全的模式
,模型可能会复制这些模式
。而且在很多情况下,情况确实如此。 为什么这很危险? 因为漏洞可能在早期就已嵌入软件中。不安全的代码可能会调用过时的软件包、忽略输入验证或错误处理内存
。它也可能编译并正常运行。 但在表面之下,它却十分脆弱。攻击者正是寻找这种弱点。 事实上,这些模型生成具有已知错误和漏洞的代码并不少见
。 在CSET 评估中
,包括 GPT-4 和 Code Llama 等开源工具在内的五种主流模型生成的代码片段中,近一半存在至少一个安全相关缺陷。其中一些缺陷严重到足以导致缓冲区溢出或未经授权的内存访问 。 这些不仅仅是不好的做法——它们还是可利用的切入点。 这是最棘手的部分。许多开发人员对 AI 生成的代码过于信任。在CSET 的研究中,大多数参与者认为这些代码是安全的——即使事实并非如此
。这就是自动化偏见。它会导致不安全的代码被直接复制到生产环境中
。 透明度是另一个问题 。开发人员无法检查模型是如何做出决策的
,也无法了解它为什么会提出特定的模式。即使被提示“注意安全”,一些模型仍然会输出有风险的代码。另一些模型会返回无法编译或验证的部分函数。 这使得自动化审查更加困难 。如果没有审查 ,不良代码就可能被漏掉。此外
,还存在反馈风险
。不安全的人工智能生成的代码有时会被发布到开源存储库 。之后,它可能会被重新用于训练数据。这就形成了一个循环——今天的糟糕代码会影响明天的模型行为
。而这正是让情况变得更糟的原因
。 尽管模型在生成代码方面越来越优秀 ,但它们在生成安全代码方面并不总是表现得更好 。许多模型仍然优先考虑功能性,而不是安全性 。 这很重要,因为AI生成的代码不仅仅是一个工具。它改变了代码的编写、审查和复用方式 。除非这些变化得到充分考虑,否则它们会在整个软件生命周期中带来风险。 对策
: 数据中毒涉及恶意改变用于构建人工智能模型的训练数据
,导致其行为不可预测或恶意。 通过向数据集注入误导性或有偏见的数据,攻击者可以影响模型的输出,使其偏向某些操作或结果 。这可能导致错误的预测、漏洞或有偏见的决策。 防止数据中毒需要安全的数据收集实践和监控训练数据集中的异常模式
。 在 生成式AI系统中 ,数据中毒尤其难以检测,因为中毒样本通常数量少
,但影响却很大 。只需少量被篡改的样本,就可能使模型的行为朝着特定方向转变。 一些数据中毒攻击旨在改变模型对特定提示的响应方式。另一些攻击则嵌入仅在特定条件下激活的隐藏触发器。这就是为什么这是一个问题。 许多 生成式AI系统会根据第三方来源或用户交互进行重新训练或微调
。因此,攻击者无需访问原始训练流程 ,就可以毒害后续传入的数据 。由于这些系统经常持续更新,中毒输入会慢慢累积,这使得在行为变化引发问题之前发现它们变得更加困难。 并非所有的中毒攻击都试图破坏模型。有些攻击会在保持输出功能的同时引入偏差。 例如
:一个情绪模型可能被训练成偏向某个群体或品牌。结果看起来正确
,但这种偏差是故意造成的。 重要提示:生成式AI系统在大多数情况下通常表现正常 。正因如此,中毒行为才如此难以察觉
。 标准性能测试可能无法发现这个问题。相反
,组织需要针对边缘情况和对抗性输入进行有针对性的测试。 对策: 许多组织依赖第三方模型 、开源数据集和预训练的 AI 服务。这带来了诸如模型后门、数据集中毒和训练流程受损等风险。 例如:模型窃取,又称模型提取,是指攻击者窃取已训练的人工智能模型的架构或参数
。攻击者可以通过查询模型并分析其响应来推断其内部工作原理 。 简而言之,窃取的模型可以让攻击者绕过训练高质量人工智能系统所需的努力和成本。 但模型盗窃并不是唯一的问题。 生成式AI系统通常依赖于复杂的软件包
、组件和基础架构链
,这些组件和基础架构可能在多个位置被利用 。单个受感染的依赖项就可能允许攻击者窃取敏感数据或将恶意逻辑注入系统。 例如: 2022 年 12 月,针对PyTorch-nightly软件包的供应链攻击充分展现了被入侵的软件库的危险性。攻击者利用恶意依赖项收集和传输环境变量,从而暴露了受影响计算机上存储的机密信息。 它并不仅限于软件库 。基础设施漏洞(例如配置错误的 Web 服务器
、数据库或计算资源)也同样危险 。攻击者只要攻陷任何底层组件,就可能干扰数据流、劫持计算作业或泄露敏感信息。如果系统缺乏适当的访问控制,这种风险可能会蔓延至各个服务和组件。 此外,还有来自数据集中毒的风险
。攻击者可以修改数据或将数据注入训练流程 ,从而巧妙地操纵模型行为 。 这并非只是假设
。有毒的输入会随着时间的推移影响模型输出,尤其是在能够适应新数据的 生成式AI系统中。 更糟糕的是:如果基础模型已经受到威胁,任何继承自该基础模型的微调模型也可能延续这些问题。预训练期间插入的后门可能会悄无声息地持续存在,除非被发现并修复。 第三方组件也可能因实施不当而产生风险
。2023 年 3 月,ChatGPT 使用的 Redis 连接器库中存在一个漏洞,导致横向权限提升 。不恰当的隔离机制导致用户能够查看其他用户会话的数据。 这一事件凸显了即插即用组件即使被广泛采用
,如果不能安全集成 ,也会带来严重的安全隐患。 对策: 生成式AI模型可能会引入偏见、产生误导性内容或生成完全错误的信息。这对于安全来说是一个问题
,但对于信任来说也是一个问题。 资料来源
:https://www.bmj.com/content/372/bmj.n304 原因如下: 这些模型通常以自信流畅的语气呈现输出——即使信息错误或存在偏见
。这使得用户更难发现错误 ,也更容易被攻击者利用。 例如 :一个基于有偏见的数据训练的模型
,可能会在招聘摘要中始终偏向某一特定人群 。或者 ,它会生成看似真实但实际上并非如此的医疗证明。这些不仅仅是不准确的信息,它们还会影响决策
,有时甚至会以至关重要的方式产生影响。 攻击者知道这一点。 即时操纵可能会触发降低信任的输出。它可能是攻击性语言,也可能是精心设计的错误信息内容。在某些情况下 ,生成式AI系统已被用于生成网络钓鱼和社会工程的材料。 需要注意的是
:并非所有问题都源于恶意。有些问题源于模型设计,有些则源于糟糕的训练数据
。 无论哪种方式,有缺陷的输出都会带来真正的风险——尤其是在受监管或高风险的环境中。 这就是为什么对齐和幻觉控制很重要。对齐有助于模型保持在规范的范围内 ,从而使输出符合预期目标和规范
。幻觉控制有助于减少虚构的细节。它们共同维护了内容的完整性,并有助于防止 生成式AI成为错误信息的来源。 对策: 对人工智能能力的渴求已经催生了影子人工智能,就像影子IT是迈向云和软件即服务 (SaaS) 转型的第一步一样。安全领导者需要再次引领这一进程
。 -Palo Alto Networks
,《Unit 42 威胁前沿 :为新兴人工智能风险做好准备》 影子人工智能是指组织内的员工或个人在没有 IT 或安全团队监督的情况下未经授权使用人工智能工具。 这些未经批准的工具虽然经常用于提高生产力
,但绝对会暴露敏感数据或造成合规性问题。不受管理的 AI 采用会带来与早期 SaaS 采用类似的风险。 员工可能会使用外部AI工具来总结会议记录、撰写电子邮件或生成代码
。虽然这些工具的意图通常无害,但如果没有采取任何安全措施,它们可能会无意中处理机密数据 ,例如客户信息、知识产权 、内部通信等
。 当这些工具在正式审查和采购渠道之外使用时 ,没有人会验证它们是否符合组织的安全性、合规性或隐私标准。这就造成了盲点
。 而且,由于安全和IT团队通常无法了解正在使用哪些工具或访问哪些数据,这种缺乏监督的情况使得追踪数据移动、防止数据泄露或实施控制变得十分困难。此外,不安全的AI工作流程或不良的数据处理实践也增加了数据泄露的风险。 换句话说
:影子人工智能允许在缺乏基础治理和风险控制的情况下采用人工智能,从而削弱了组织的安全态势
。 人工智能在日常工作中的应用越深入,主动弥补这些差距就越重要。否则,人工智能的使用增长速度将超过组织管理风险的能力 。 对策: 生成式AI系统可能会无意中泄露机密信息
,包括个人数据、商业机密或训练期间使用的其他敏感输入 。这可以通过多种方式实现 : 这种现象可以通过过度拟合表现出来,即模型生成的输出与其训练数据过于紧密地联系在一起
。或者通过诸如提示注入攻击之类的漏洞,操纵模型来泄露敏感信息。 这之所以会成为一个重大的潜在威胁
,是因为 生成式AI系统通常会处理大量数据
,其中包括专有商业信息或个人信息。这些信息属于敏感信息 ,不应被披露。 此类数据泄露可能导致财务损失 、声誉损害和法律后果。 此外:生成式AI系统的多功能性和复杂性意味着它们可以访问和综合跨多个数据点的信息——无意中以泄露机密见解的方式将它们组合起来。 例如
:一个基于敏感医疗记录训练的 生成式AI模型可能会生成无意中包含个人身份信息 (PII)的输出 ,即使这并非查询的意图 。同样,如果金融服务中使用的模型没有得到妥善保护,也可能会无意中泄露商业机密或战略信息。 对策
: 当威胁行为者绕过或滥用身份控制进入 生成式AI系统或其背后的基础设施时,就会发生这些攻击。 这些策略并不新鲜。但在 生成式AI环境中,风险更高
。 为什么
? 因为 生成式AI平台通常连接到内部数据、生产 API 和外部服务
。因此 ,如果攻击者获得访问权限,他们不仅可以看到数据
,还可以操纵模型、输出和下游系统。 工作原理如下 :大多数 生成式AI设置包括 API、Web 服务以及跨存储、推理引擎、数据库和前端应用的集成
。它们通过凭证(例如令牌、密钥或服务帐户)连接在一起。如果其中任何一个被暴露
,攻击者就可以冒充合法用户或服务。 例如
:攻击者可能会从模型推理 API 中窃取令牌。该令牌可能被用来发送恶意提示或提取过去的输出历史记录。或者,他们可能会入侵连接到云存储的插件,并利用该插件上传有害数据或获取机密文件 。 其他攻击始于泄露管理员凭据。这些攻击可能来自网络钓鱼或凭据重用 。 一旦攻击者进入,他们就可以升级访问权限或改变模型的行为方式。 注意
:在 生成式AI环境中
,会话和令牌处理尤为敏感。许多模型依赖于上下文。如果会话令牌被重复使用或存储不安全
,攻击者可能会跨会话持续存在或访问之前的交互 。 另一个常见问题是权限过高。服务帐户和测试环境通常拥有超出实际需要的访问权限 。如果这些凭证在生产环境中重复使用
,可能会造成严重损害。 最终 :一个薄弱环节(例如被遗忘的令牌或过度许可的 API)可能会为整个系统的入侵打开大门。 对策: 当 生成式AI模型随着时间的推移变得不那么准确或可靠时,就会发生模型漂移。这通常是因为模型开始使用未经训练的数据,或者使用自训练以来发生变化的数据。 这有什么关系 ? 因为 生成式AI系统并非停留在实验室中
,而是在真实环境中运行
。这包括不断变化的用户行为
、更新的内容或不断变化的业务条件。如果模型无法适应,性能就会下降,进而影响决策。 它看起来是这样的:如果没有更新
,法律摘要模型可能会遗漏新术语。如果产品发生变化而模型保持不变,支持聊天机器人可能会给出错误答案 。即使是输入的微小变化也可能导致性能下降。这会导致混乱、结果不佳,在某些情况下还会带来监管或法律风险。 重要的
:在闭源模型中
,漂移尤其难以追踪。如果无法了解训练数据或模型变化
,就很难理解问题所在
,也很难找到解决办法
。 还有安全层面的问题
。 漂移会增加出现幻觉和错位的可能性。如果模型看到不熟悉的输入,它可能会猜测。有时它会出错,但听起来很有把握。在其他情况下,它可能会忽略内置规则
,或生成违反预期的输出。 换句话说 :如果偏差未被发现
,它不仅会降低质量,还会造成运营风险、决策问题和声誉受损。 对策: 生成式AI系统发展迅速
,但管理它们所需的治理却往往滞后。 这就是为什么这是一个问题:这些工具可以处理敏感数据、自动化决策,并生成影响人员和系统的内容 。如果没有监管,它们会带来法律、运营和声誉方面的风险。 换句话说:管控看不见摸不着的东西非常困难
。许多组织缺乏对正在使用的模型
、接触的数据以及它们在生产中的行为方式的可见性 。 当模型以不同的方式部署时,事情会变得更加复杂 。基于 API 的模型可能有一套要求。内部托管的开源模型可能需要另一套要求。每种设置都需要各自的控制措施
,并且可能根据使用地点和方式受到不同的监管。 这使得一致性变得困难
。许多 生成式AI模型也难以审计。它们通常像黑匣子一样工作。并不总是清楚哪些数据影响了输出结果
,或者决策是如何做出的。这在招聘 、医疗保健或金融等敏感领域尤其危险——这些领域的法律可能要求证明其公平性
、透明度或非歧视性
。 培训又增加了一层
。如果微调涉及内部数据,则存在泄露个人或专有信息的风险——尤其是在没有明确政策或安全流程的情况下。 而且它不仅限于内部使用。面向公众的 生成式AI工具可能会被探测或操纵
。如果没有防护措施,它们可能会泄露数据或生成有害内容。这将使组织面临违反合规性的风险
,甚至更糟的是,引发公众的强烈反应。 对策
: 生成式AI模型通常很复杂 。它们的输出结果可能难以追踪
。而且在很多情况下,我们并不清楚某个决策是如何或为何做出的
。 这就是透明度和可解释性的作用所在 。 它们是相关的——但并不相同 。 透明度关乎可见性。这意味着了解模型的工作原理、训练数据以及其局限性。它还包括访问文档、性能指标和输入/输出行为
。 可解释性则更进一步。它侧重于理解。人类能否以一种合理的方式来解读模型的决策
? 这很重要。 如果人工智能系统拒绝贷款或标记健康状况,用户会想知道原因。如果它无法自我解释
,就会在操作、法律和伦理方面产生问题 。 这就是为什么它如此重要 :如果没有透明度 ,偏见就更难被发现。如果模型是基于偏差数据进行训练的
,它可能会强化不公平的结果。但如果没有人能够洞察内部
,就无法审核或纠正这种行为。 缺乏可解释性也使得系统更难改进。开发人员无法调试他们不理解的内容
。用户也可能不再信任系统——尤其是在高风险的环境中。 这也是一个隐私问题 。有些模型会记住部分训练数据。如果其中包含敏感信息,则可能会在推理过程中泄露 。如果模型的训练过程不透明,这些风险可能会被忽视。 简而言之 :如果您无法解释模型在做什么,您就无法保护它、管理它或期望其他人信任它
。 对策:















