WhitzardAgent - 智能体系统全栈安全技术矩阵

能力介绍

风险扫描

发现Agent系统未知重大安全漏洞

安全测评

提供一站式Agent安全测试风洞

安全加固

“乐高式”可插拔安全工具箱

安全基建

面向Agent产业的安全基础设施

风险扫描

深度挖掘Agent框架与应用层的潜在风险，保障系统健壮性

Agent框架风险建模与漏洞挖掘引擎

面向主流 Agent 框架的自动化漏洞挖掘，快速发现跨层调用中的0-Day安全风险

ASE 2025

Agent应用注入类漏洞挖掘工具

针对 LLM 智能体交互接口的注入漏洞检测能力，有效阻断命令注入等高危攻击载荷

USENIX Security 2025

Agent应用DoS类漏洞挖掘工具

实现对智能体资源调用行为的自动化滥用检测，预防因内存、磁盘或网络耗尽导致的服务中断

USENIX Security 2026 (敬请期待)

安全测评

全方位、多维度的Agent安全基准测试与红队演练

知识库应用安全压测套件 RAG-Thief

为RAG知识库设计的自动化数据泄露压测套件，产出端到端修复方案

Arxiv

GUI操作型智能体动态安全评测套件

动态任务场景合成与安全判定，支持多框架、多环境的可扩展安全测试风洞

GitHub (TBD)

浏览器Agent动态安全测评套件WebTrap

面向浏览器智能体的端到端安全评测基准，覆盖多类诱导攻击，支持跨架构风险评估

Homepage

安全加固

模块化防御组件，快速提升现有Agent系统的安全性

工具流Agent安全矫正模组 Thought-Aligner

1.5B轻量CoT层矫正模组，无感提升安全性至90%+，兼容任意基模，修正越权/危险工具调用

Arxiv 🤗 HuggingFace

桌面Agent安全矫正模组MirrorGuard

CoT层矫正，电脑/手机操作场景非预期风险发生率从90%降至5%

GitHub (TBD)

浏览器智能体安全助手 Web Supervisor

运行时防护框架，在任务理解与执行全流程中抵御攻击，安全性提升显著且性能损耗低于 8%

GitHub (TBD)

多智能体交互风险意图检测模组 SentinelNet

精准检测恶意智能体攻击意图，准确率超90%，误报率低于10%

Arxiv

安全基建

为Agent研发者提供底层环境支持与仿真沙箱

全球最大的MCP活样本库 MCPZoo

持续增长的 MCP 服务样本库，汇聚并标准化各类为 AI 提供外部工具能力

Homepage

智能安全执行桌面环境 XuanwuBox

根据执行状态动态生成"安全Tips"，非预期风险行为发生率降低至 1%

GitHub (TBD)

虚实结合的行为仿真沙箱 MirrorGUI

融合大模型与程序仿真的高拟真GUI交互沙箱，快速批量开展行为测试

GitHub

即插即用的安全浏览器沙箱 WhitzardBrowser

浏览器沙箱界面

提供便捷编程API，为智能体提供方便易用、安全可靠的网页浏览服务

GitHub (TBD)

技术联创

潘旭东博士

复旦大学副研究员 / 上海创智学院导师

AI安全评测模型安全攻防

世界人工智能大会WAIC云帆奖

入选华为"天才少年"

主持国家重点研发计划课题

AI安全技术服务多家大型企业

戴嘉润博士

复旦大学副研究员

AI系统安全漏洞攻防

累计挖掘 600+零天漏洞

产业化应用于阿里、华为等

数项国际网安攻防赛事冠军

上海市技术发明奖一等奖

洪赓博士

复旦大学助理研究员

AI安全与治理网络测绘

ACM CCS 2018焦点论文（Highlight Award）

决咨建议多次获重要批示

ACM中国计算机安全分会优博奖

深度参与多项大模型安全国标建设工作

团队实力

智能体应用基础框架风险

在 LangChain、AutoGPT、LangFlow 等主流框架中发现上百个高危漏洞，涉及远程命令执行、数据窃取等风险；已获 100+国际/国内漏洞库编号，并收到多家厂商致谢。

智能体数据资产风险

通过红队测试验证，攻击者可利用大模型漏洞对私有知识库实施"脱库"攻击，在 OpenAI 与字节Coze平台的多款应用中成功提取近 80% 的原始文本，引发10+家AI头部企业关注

智能体行为失控风险

系统评估自主复制、伪装、心理操控、密谋自保等智能体红线风险，得到福布斯、LiveScience等媒体报道；代表中国学者受邀向联合国秘书长科学顾问委员会分享发现，并纳入其科学简报。

基础大模型安全评测与防护

研发大模型动态安全测评平台，多次服务国家专项行动，获中央领导批示；参与《生成式人工智能服务安全基本要求》等国家标准编制，联合发布国标安全测试集，支撑近千家AI+企业安全合规。

智能体服务部署风险测绘

结合网络空间测绘技术，发现公网环境上万个基于含已知漏洞软件部署的智能体服务，攻击者可利用漏洞实现设备完全控制。

新闻动态

2026年1月14日

成果分享 | 智能体漏洞检测 [ASE'25, Security'25/26, BlackHat EU]

团队首次系统梳理智能体漏洞根因与修复难点，提出多项自动化检测工具，在主流开源应用新发现70+漏洞。相关成果已被ASE'25、Security'25、Security'26、BlackHat EU'25、GeekCon'25等国际顶级会议接收。

智能体安全漏洞挖掘 AgentFuzz

查看详情

2026年1月13日

成果分享 | Web Agent安全自动化测试靶场已正式上线！

WebTrap Park平台正式上线，提供开箱即用的Web Agent安全评估服务。平台内置11个数据集、1226个任务，覆盖恶意用户指令、提示注入与欺骗性网页设计三类攻击场景，支持端到端自动化执行与细粒度行为监测。

Web Agent 安全测试 WebTrap 靶场

查看详情

2025年12月5日

团队受邀参加联合国AI欺骗风险研讨会并作发言

团队受邀在由联合国秘书长技术特使与图灵奖得主Yoshua Bengio共同牵头的AI欺骗专家圆桌会议上发言，分享了在AI欺骗领域的三项实证研究：安全评测中的伪装行为、开放式交互欺骗及AI自主复制密谋行为，为全球AI治理贡献中国智慧。

AI安全 AI欺骗联合国全球治理

查看详情

2025年11月28日

MCPZoo 主页上线｜让 MCP 生态第一次“看得见、摸得着”

团队正式发布 MCPZoo 官网，提供全球规模最大的 MCP（模型上下文协议）服务器运行样本库。用户可开箱即用地探索、连接与测试真实部署的 MCP 服务，并查看其工具集，为 MCP 生态的观测与安全评估奠定基础。

MCP AI基础设施生态测量

查看详情

2025年11月14日

成果分享 | MCPZoo：世界上（目前）最大的MCP动物园要来了！

团队构建了全球最大的 MCP（模型上下文协议）服务器运行样本库 MCPZoo，通过自动化收集、解析与容器化部署，成功汇聚万余个可交互的 MCP 镜像。研究揭示了当前 MCP 生态“平台主导、企业跟进、个人分布广泛”的格局，并指出生态正从分散走向集成。

MCP 互联网测量 AI安全

查看详情

2025年10月29日

成果分享｜[ASE 2025] 在智能体应用的漏洞缓解中，开发者将面临怎样的艰难权衡？

团队的研究成果《Security Debt in LLM Agent Applications》被软件工程顶会 ASE 2025 录用。研究系统评测了50个热门智能体应用，揭示其漏洞态势严峻（74.1%为高危/致命级），并深入分析了开发者在修复漏洞时面临的“安全 vs 功能”两难困境及责任归属争议。

智能体安全漏洞挖掘 ASE2025

查看详情

2025年8月3日

智能体元年，安全准备好了吗？——WAIC 2025 青年思辨会成功举办

在2025世界人工智能大会（WAIC）期间，由团队主办的“智能体元年，安全准备好了吗？”青年思辨会成功举办。来自学界、产业界与标准化机构的顶尖专家齐聚一堂，围绕智能体安全的风险图谱、技术挑战与治理路径展开深度思辨，强调需建立“产学研用”多方共治生态。

WAIC2025 AI治理多方共治

查看详情

2025年7月24日

成果分享｜[WWW'25] 安全防护让大语言模型变“傻”了吗？

团队成果发表于国际顶会 ACM WWW'25 ：越狱防护虽提升安全性，却显著降低模型实用性与可用性。通过构建 USEBench 基准，评估7种主流防御策略，揭示“更安全”与“更聪明”难以兼得的困境，并指出模型迭代常以牺牲安全性为代价换取性能提升。

LLM安全越狱防护 WWW2025 能力退化

查看详情

2025年7月17日

研究分享 | 当大模型开始 "思考"，谁来守护它的安全？ReasoningShield 重磅登场！

针对大型推理模型（LRMs）长推理轨迹中隐藏的安全风险，团队提出 ReasoningShield: 首个专为“Question-Thought”对设计的安全检测模型。该模型基于1B/3B小参数架构，在推理轨迹检测任务上达到SOTA，同时兼顾轻量化、可解释性与跨任务泛化能力，代码与数据集已开源。

推理安全 ReasoningShield 思维链开源

查看详情

AI智能体时代的全栈安全引擎

能力介绍

风险扫描

安全测评

安全加固

安全基建

风险扫描

Agent框架风险建模与漏洞挖掘引擎

Agent应用注入类漏洞挖掘工具

Agent应用DoS类漏洞挖掘工具

安全测评

知识库应用安全压测套件 RAG-Thief

GUI操作型智能体动态安全评测套件

浏览器Agent动态安全测评套件WebTrap

安全加固

工具流Agent安全矫正模组 Thought-Aligner

桌面Agent安全矫正模组MirrorGuard

浏览器智能体安全助手 Web Supervisor

多智能体交互风险意图检测模组 SentinelNet

安全基建

全球最大的MCP活样本库 MCPZoo

智能安全执行桌面环境 XuanwuBox

虚实结合的行为仿真沙箱 MirrorGUI

即插即用的安全浏览器沙箱 WhitzardBrowser

技术联创

潘旭东 博士

戴嘉润 博士

洪赓 博士

团队实力

智能体应用基础框架风险

智能体数据资产风险

智能体行为失控风险

基础大模型安全评测与防护

智能体服务部署风险测绘

新闻动态

成果分享 | 智能体漏洞检测 [ASE'25, Security'25/26, BlackHat EU]

成果分享 | Web Agent安全自动化测试靶场已正式上线！

团队受邀参加联合国AI欺骗风险研讨会并作发言

MCPZoo 主页上线｜让 MCP 生态第一次“看得见、摸得着”

成果分享 | MCPZoo：世界上（目前）最大的MCP动物园要来了！

成果分享｜[ASE 2025] 在智能体应用的漏洞缓解中，开发者将面临怎样的艰难权衡？

智能体元年，安全准备好了吗？——WAIC 2025 青年思辨会成功举办

成果分享｜[WWW'25] 安全防护让大语言模型变“傻”了吗？

研究分享 | 当大模型开始 "思考"，谁来守护它的安全？ReasoningShield 重磅登场！

潘旭东博士

戴嘉润博士

洪赓博士