复旦大学 上海创智学院

AI智能体时代的全栈安全引擎

从漏洞发现到运行时防护,覆盖开发、测试、部署、运维全链路的安全能力
支持企业Agent|桌面Agent|浏览器Agent|Agent互联网 | Agent基础设施

能力介绍

风险扫描

发现Agent系统未知重大安全漏洞

安全测评

提供一站式Agent安全测试风洞

安全加固

“乐高式”可插拔安全工具箱

安全基建

面向Agent产业的安全基础设施

风险扫描

深度挖掘Agent框架与应用层的潜在风险,保障系统健壮性

Agent框架风险建模与漏洞挖掘引擎
Xuanwu Box
面向主流 Agent 框架的自动化漏洞挖掘,快速发现跨层调用中的0-Day安全风险
Agent应用注入类漏洞挖掘工具
Xuanwu Box
针对 LLM 智能体交互接口的注入漏洞检测能力,有效阻断命令注入等高危攻击载荷
Agent应用DoS类漏洞挖掘工具
Xuanwu Box
实现对智能体资源调用行为的自动化滥用检测,预防因内存、磁盘或网络耗尽导致的服务中断

安全测评

全方位、多维度的Agent安全基准测试与红队演练

知识库应用安全压测套件 RAG-Thief
Xuanwu Box
为RAG知识库设计的自动化数据泄露压测套件,产出端到端修复方案
GUI操作型智能体动态安全评测套件
Xuanwu Box
动态任务场景合成与安全判定,支持多框架、多环境的可扩展安全测试风洞
浏览器Agent动态安全测评套件WebTrap
Xuanwu Box
面向浏览器智能体的端到端安全评测基准,覆盖多类诱导攻击,支持跨架构风险评估

安全加固

模块化防御组件,快速提升现有Agent系统的安全性

工具流Agent安全矫正模组 Thought-Aligner
Xuanwu Box
1.5B轻量CoT层矫正模组,无感提升安全性至90%+,兼容任意基模,修正越权/危险工具调用
桌面Agent安全矫正模组MirrorGuard
Xuanwu Box
CoT层矫正,电脑/手机操作场景非预期风险发生率从90%降至5%
浏览器智能体安全助手 Web Supervisor
Xuanwu Box
运行时防护框架,在任务理解与执行全流程中抵御攻击,安全性提升显著且性能损耗低于 8%
多智能体交互风险意图检测模组 SentinelNet
Xuanwu Box
精准检测恶意智能体攻击意图,准确率超90%,误报率低于10%

安全基建

为Agent研发者提供底层环境支持与仿真沙箱

全球最大的MCP活样本库 MCPZoo
MCP Zoo
持续增长的 MCP 服务样本库,汇聚并标准化各类为 AI 提供外部工具能力
智能安全执行桌面环境 XuanwuBox
Xuanwu Box
根据执行状态动态生成"安全Tips",非预期风险行为发生率降低至 1%
虚实结合的行为仿真沙箱 MirrorGUI
Xuanwu Box
融合大模型与程序仿真的高拟真GUI交互沙箱,快速批量开展行为测试
即插即用的安全浏览器沙箱 WhitzardBrowser
  浏览器沙箱界面
提供便捷编程API,为智能体提供方便易用、安全可靠的网页浏览服务

技术联创

潘旭东
潘旭东 博士

复旦大学副研究员 / 上海创智学院导师

AI安全评测 模型安全攻防

世界人工智能大会WAIC云帆奖

入选华为"天才少年"

主持国家重点研发计划课题

AI安全技术服务多家大型企业

戴嘉润
戴嘉润 博士

复旦大学副研究员

AI系统安全 漏洞攻防

累计挖掘 600+零天漏洞

产业化应用于阿里、华为等

数项国际网安攻防赛事冠军

上海市技术发明奖一等奖

洪赓
洪赓 博士

复旦大学助理研究员

AI安全与治理 网络测绘

ACM CCS 2018焦点论文(Highlight Award)

决咨建议多次获重要批示

ACM中国计算机安全分会优博奖

深度参与多项大模型安全国标建设工作

团队实力

智能体应用基础框架风险

在 LangChain、AutoGPT、LangFlow 等主流框架中发现上百个高危漏洞,涉及远程命令执行、数据窃取等风险;已获 100+国际/国内漏洞库编号,并收到多家厂商致谢。

智能体数据资产风险

通过红队测试验证,攻击者可利用大模型漏洞对私有知识库实施"脱库"攻击,在 OpenAI 与字节Coze平台的多款应用中成功提取近 80% 的原始文本,引发10+家AI头部企业关注

智能体行为失控风险

系统评估自主复制、伪装、心理操控、密谋自保等智能体红线风险,得到福布斯、LiveScience等媒体报道;代表中国学者受邀向联合国秘书长科学顾问委员会分享发现,并纳入其科学简报。

基础大模型安全评测与防护

研发大模型动态安全测评平台,多次服务国家专项行动,获中央领导批示;参与《生成式人工智能服务安全基本要求》等国家标准编制,联合发布国标安全测试集,支撑近千家AI+企业安全合规。

智能体服务部署风险测绘

结合网络空间测绘技术,发现公网环境上万个基于含已知漏洞软件部署的智能体服务,攻击者可利用漏洞实现设备完全控制。

新闻动态

智能体漏洞检测成果
2026年1月14日

成果分享 | 智能体漏洞检测 [ASE'25, Security'25/26, BlackHat EU]

团队首次系统梳理智能体漏洞根因与修复难点,提出多项自动化检测工具,在主流开源应用新发现70+漏洞。相关成果已被ASE'25、Security'25、Security'26、BlackHat EU'25、GeekCon'25等国际顶级会议接收。

智能体安全 漏洞挖掘 AgentFuzz
查看详情
WebTrap Park
2026年1月13日

成果分享 | Web Agent安全自动化测试靶场已正式上线!

WebTrap Park平台正式上线,提供开箱即用的Web Agent安全评估服务。平台内置11个数据集、1226个任务,覆盖恶意用户指令、提示注入与欺骗性网页设计三类攻击场景,支持端到端自动化执行与细粒度行为监测。

Web Agent 安全测试 WebTrap 靶场
查看详情
联合国AI欺骗研讨会
2025年12月5日

团队受邀参加联合国AI欺骗风险研讨会并作发言

团队受邀在由联合国秘书长技术特使与图灵奖得主Yoshua Bengio共同牵头的AI欺骗专家圆桌会议上发言,分享了在AI欺骗领域的三项实证研究:安全评测中的伪装行为、开放式交互欺骗及AI自主复制密谋行为,为全球AI治理贡献中国智慧。

AI安全 AI欺骗 联合国 全球治理
查看详情
MCP Zoo上线啦
2025年11月28日

MCPZoo 主页上线|让 MCP 生态第一次“看得见、摸得着”

团队正式发布 MCPZoo 官网,提供全球规模最大的 MCP(模型上下文协议)服务器运行样本库。用户可开箱即用地探索、连接与测试真实部署的 MCP 服务,并查看其工具集,为 MCP 生态的观测与安全评估奠定基础。

MCP AI基础设施 生态测量
查看详情
MCP Zoo上线啦
2025年11月14日

成果分享 | MCPZoo:世界上(目前)最大的MCP动物园要来了!

团队构建了全球最大的 MCP(模型上下文协议)服务器运行样本库 MCPZoo,通过自动化收集、解析与容器化部署,成功汇聚万余个可交互的 MCP 镜像。研究揭示了当前 MCP 生态“平台主导、企业跟进、个人分布广泛”的格局,并指出生态正从分散走向集成。

MCP 互联网测量 AI安全
查看详情
Security Debt
2025年10月29日

成果分享|[ASE 2025] 在智能体应用的漏洞缓解中,开发者将面临怎样的艰难权衡?

团队的研究成果《Security Debt in LLM Agent Applications》被软件工程顶会 ASE 2025 录用。研究系统评测了50个热门智能体应用,揭示其漏洞态势严峻(74.1%为高危/致命级),并深入分析了开发者在修复漏洞时面临的“安全 vs 功能”两难困境及责任归属争议。

智能体安全 漏洞挖掘 ASE2025
查看详情
WAIC
2025年8月3日

智能体元年,安全准备好了吗?——WAIC 2025 青年思辨会成功举办

在2025世界人工智能大会(WAIC)期间,由团队主办的“智能体元年,安全准备好了吗?”青年思辨会成功举办。来自学界、产业界与标准化机构的顶尖专家齐聚一堂,围绕智能体安全的风险图谱、技术挑战与治理路径展开深度思辨,强调需建立“产学研用”多方共治生态。

WAIC2025 AI治理 多方共治
查看详情
WWW 2025
2025年7月24日

成果分享|[WWW'25] 安全防护让大语言模型变“傻”了吗?

团队成果发表于国际顶会 ACM WWW'25 :越狱防护虽提升安全性,却显著降低模型实用性与可用性。通过构建 USEBench 基准,评估7种主流防御策略,揭示“更安全”与“更聪明”难以兼得的困境,并指出模型迭代常以牺牲安全性为代价换取性能提升。

LLM安全 越狱防护 WWW2025 能力退化
查看详情
ReasoningShield开源
2025年7月17日

研究分享 | 当大模型开始 "思考",谁来守护它的安全?ReasoningShield 重磅登场!

针对大型推理模型(LRMs)长推理轨迹中隐藏的安全风险,团队提出 ReasoningShield: 首个专为“Question-Thought”对设计的安全检测模型。该模型基于1B/3B小参数架构,在推理轨迹检测任务上达到SOTA,同时兼顾轻量化、可解释性与跨任务泛化能力,代码与数据集已开源。

推理安全 ReasoningShield 思维链 开源
查看详情