保障 AI 代理安全:边飞边造起落架

保障 AI 代理安全:边飞边造起落架

作者   |  8 分钟阅读  | 

当我在 2020 年开始研究自主网络代理时,现实世界的部署时间线仍以几十年为单位。当时,这些系统被视为一种长线赌注 — 虽然有趣,但对于眼前的应用来说,仍然只是些小众的改进。

后来,事情发生了变化。 

虽然生成式人工智能 (GenAI) 并非个例,但它引发了一系列持续不断的进步,这些进步至今仍在导致开发时间线以持续加快的速度崩塌。这不仅仅预示着目标的改变;GenAI 驱动的浪潮正在无情地推倒旧基准,重新定义可能的前沿,速度之快前所未有。曾经仅限于长期研究的功能现在正以惊人的速度融入到现实环境中。 

令人震惊但又毫不意外的是,代理式系统正被嵌入到无数地方 — 公司工作流程、决策管道,甚至是关键基础设施 — 而这往往发生在我们尚未确定如何治理或保护之前。考虑到我们不再是为代理式 AI 的到来做好准备,而是对其持续快速的演进做出响应,2020 年仿佛已经恍如隔世。

一篇针对移动目标的报告

我参与撰写的研讨会报告《构建安全的 AI 代理生态系统》(Achieving a Secure AI Agent Ecosystem) 是跨机构合作的成果,旨在阐述这一加速发展趋势。这篇报告由兰德公司 (RAND)、Schmidt Sciences 以及来自工业界、学术界和政府部门的代理式 AI 领军人物共同撰写。它并非灵丹妙药,而是提出了一种思考和应对代理式 AI 的新方式。 

这篇文章的核心概述了 AI 代理的三大基础安全支柱,并指出了随着这些系统的发展,我们当前的假设 — 以及基础设施 — 可能会在哪些方面出现问题。报告不仅承认了当前现实,更主张一种深刻的心态转变:我们必须认识到代理式系统的时代已然来临。因此,保障这些系统的安全并非明日之事。如今,这是一个紧迫的挑战,而创新的无情步伐、规模的不断扩大、早期采用者面临的风险不均衡以及攻击能力与防御目标之间的巨大不对称等问题,都加剧了这一挑战。

保障 AI 代理安全的挑战之一在于,这些系统的外观和行为与传统软件截然不同。它们动态发展,不断演进,并且越来越有能力在极少的监督下执行决策。有些是专为自动执行日程安排或电子邮件分类等任务而构建的;另一些则正逐步迈向在高风险环境中完全自主行动。无论哪种情况,我们用于保障传统应用程序安全的框架都远远不够。我们遇到的不仅仅是已知漏洞的变体,而是全新的、根本性的问题。攻击面已经发生了变化。

AI 代理安全的三大支柱

这种思维转变使得安全格局围绕三个核心问题展开:

  • 保护 AI 代理免受第三方入侵:如何保护 AI 代理本身不被外部攻击者接管或操纵。
  • 保护用户和企业免受代理自身影响:如何确保 AI 代理,无论是按预期运行还是发生故障,都不会伤害其用户或服务的企业。
  • 保护关键系统免受恶意代理侵害:如何保护重要的基础设施和系统免受蓄意设计和部署的 AI 代理的伤害。

这些类别并非一成不变 — 它们是能力和威胁成熟度光谱上的一个点。如今,大多数部署了代理的企业都在应对前两个问题。但第三个问题 — 恶意的自主对手 — 正日益迫近。民族国家是首批投资自主网络代理的。他们可能不会孤军奋战太久。 

因此,在这个强大且广泛的自主威胁新时代中航行,需要的远不止是对现有防御措施的渐进式改进。这要求我们的专家社群在安全方面的协作和创新方式发生根本性转变。

历史来看,AI 研究人员和网络安全专业人员常常在平行轨道上工作,对风险和架构持有不同的假设。然而,代理式 AI 安全的复杂前沿要求他们共同努力,因为任何一方都无法孤立应对这些巨大挑战 — 深入、持续的协作至关重要。尽管适用于整个领域的通用协议和全面的最佳实践仍在完善当中,但坦率地说,那种认为有效的一站式安全代理产品十分稀缺的观点,确实已经过时了。如今,成熟且可部署的解决方案正在为关键的代理系统提供至关重要的专业保护,标志着切实的进展。这进一步凸显了对自适应、多层级安全战略的迫切需求 — 涵盖模型溯源、强大的遏制措施和弹性的人机回路控制 — 所有这些都与代理本身一样快速发展。

触手可及的干预

虽然强大且不断演进的产品解决方案在缓解代理式 AI 带来的即时运营风险方面日益关键,但要实现全面、长期的安全,还需要整个行业在基础能力和共识方面进行专门的投入。与产品创新相辅相成的几个关键方向完全在我们的集体能力范围之内,值得我们集中精力去努力。 

例如,设想一种类似于“软件物料清单”(SBOM) 的“代理物料清单”(Agent BOM),旨在提供对代理组件(如模型、训练数据、工具和记忆体)的可视性。然而,其功能可行性目前还面临一些障碍,例如缺乏一个通用的模型标识符系统,而这对这种透明度至关重要。 

此外,标准化的部署前测试平台支持在代理投入生产环境之前进行可扩展的、基于场景的评估。MCP(模型上下文协议)和 A2A(代理到代理)等通信协议正在兴起,但很少有协议从一开始就内置了安全。然而,即使从一开始就集成了安全措施,这些新型代理式系统中普遍存在的“未知数”也意味着这些协议需要进行严格且持续的评估,才能维护其完整性和安全性。 

我们的报告尝试探讨的一个关键挑战是:代理的记忆对于其学习、改进以及至关重要的是避免重蹈覆辙而言必不可少,但它本身也是一个可能被恶意篡改的重大漏洞。报告中提出的战略涉及使用“启动时克隆”(clone-on-launch) 或特定于任务的代理实例。在这种模型中,为特定运营职责或有限时长的交互而设计的代理,将其活跃的工作记忆视为短暂的。一旦其特定任务或会话完成,这些实例即可被废弃,新的操作由从安全、可信的基线初始化的新鲜实例处理。 

这种做法旨在显著降低持久性记忆损坏的风险,或单次会话中可能发生的篡改造成的持续影响。然而,至关重要的是,这种系统必须经过精心架构,确保代理的核心基础知识和长期习得的经验不仅被安全地维护,而且本身也受到保护,免遭篡改,还能够有效、安全地进行访问,从而为这些更短暂的操作实例提供信息。虽然以这种方式管理操作状态并非解决所有记忆相关威胁的全面方案,但它代表了推进代理安全和强大遏制所需的创造性、系统级思维。

呼吁共同承诺

归根结底,保障代理式 AI 的安全并非源于任何单一的突破,而是需要多方持续的共同努力。这包括研究人员、政策制定者、从业者和行业领袖跨学科合作。威胁既来自技术层面,也来自基础层面。我们正试图保障我们尚未完全理解的系统安全。但是,如果说过去几年有什么事情可以说明问题的话,那就是:等到完全了解情况后再采取行动,就意味着为时已晚了。

代理式 AI 的演进意味着我们的行业在广泛采用 AI 的同时,也在开发关键的防护措施。这种并行发展本身并非危机,而是对集体责任的明确呼吁。我们能否在这一努力中取得成功,取决于业界是否共同致力于通过透明、严格的标准和统一的愿景来建立一个值得信赖的 AI 生态系统。

阅读完整文章:构建安全的 AI 代理生态系统

保持联系

立即与我们的团队联系