人工智能安全风险测评白皮书(2025年)
"人工智能安全风险测评白皮书(2025年)”由中国信息安全测评中心发布。白皮书系统性地构建了一套覆盖目标(Why)、内容(What)、方法(How)、对象(Where)、度量(Result) 的人工智能安全风险测评体系,并详细阐述了以红队测试为代表的关键技术,旨在为政府、企业、测评机构等提供全面的操作指引,以应对日益复杂的人工智能安全挑战,促进人工智能产业健康、可信发展。

研究报告内容摘要如下
一、 核心背景与目标
1.发展迅猛,风险凸显:人工智能(尤其是生成式AI)技术高速迭代,赋能千行百业,但同时也带来了前所未有的安全挑战。
2.全球共识,治理加速:世界各国和国际组织高度重视AI安全,纷纷出台治理框架和法规,竞争发展与治理主动权。
3.中国主张,统筹安全与发展:我国通过《全球人工智能治理倡议》、“人工智能+”行动等,强调发展与安全并重,推动建立风险等级测试评估体系,确保AI可审核、可监督、可追溯、可信赖。
4.白皮书目标:旨在构建一套系统化的人工智能安全风险测评实施路线,推动产业形成“测评-反馈-迭代”的安全闭环,实现“安全可控”与“创新发展”的动态平衡。
二、 人工智能安全风险的核心特征与框架
1.风险根本性转变:
•对抗模式:从攻防确定性系统转向与概率性系统(AI)博弈。
•对抗界面:从技术接口转向人类认知接口(如语言陷阱、心理操纵)。
2.风险显著特点:
•动态性:模型“涌现性”导致未知漏洞和行为不可预测,安全需是持续、适应性的过程。
展开全文
•对抗性:攻防呈现自动化“军备竞赛”趋势。
•系统性:技术栈高度集中(如基础模型、开源框架),底层漏洞可能通过供应链引发全局性风险。
3.风险分析框架(全景视图):
•横向:覆盖七大生命周期阶段(规划设计、数据采集、训练构建、验证确认、部署集成、运行监测、使用影响)。
•纵向:通过“风险定位 → 攻击分析 → 目标对标”逻辑,厘清各阶段风险、攻击手段及需对齐的安全目标(如安全性、可靠性、公平性、可问责性等)。
三、 人工智能安全风险测评体系
该体系是一个基于反馈控制逻辑的全流程闭环管理方法,核心包含五个模块:
1.测评目的(Why - 多维度安全目标):
•技术安全性:抵御恶意攻击与技术扰动(鲁棒性、抗窃取、稳定性)。
•功能可靠性:确保输出的准确性与一致性。
•数据隐私性:全链路数据保护,防止泄露。
•伦理合规性:符合社会伦理、法律规范及文化价值观(反歧视、价值观对齐)。
•系统可控性:行为可预测、可干预、可终止。
•治理可追溯性:全生命周期操作可审计、责任可定位。
•锚定安全性、可靠性、可控性、公平性四大核心目标,并细化为六大维度:
2.测评内容(What - 全领域安全覆盖):
•供应链安全测评:硬件、基础设施、软件/框架、模型、第三方服务的来源可信与完整性。
•数据安全测评:训练数据来源与内容、存储传输、使用、销毁的全生命周期安全。
•模型安全测评:模型自身的对抗鲁棒性、输出可靠性(抗幻觉、可解释)、完整性与后门风险。
•价值观与伦理对齐测评:内容合规性、偏见与公平性、伦理道德遵从、社会文化影响、意识形态安全。
•运行态系统安全测评:部署后集成系统的基础设施、网络、应用、智能体安全。
•基于风险全景图,聚焦五大测评重点:
3.测评方法(How - 多元化技术路径):
•基于规则的基线测试:快速合规筛查。
•基于对抗的红队测试:主动挖掘漏洞(核心关键技术)。
•基于指标的量化评估:将安全状态量化为可比较的数据。
•基于场景的仿真评估:在贴近真实的业务环境中验证风险。
•基于数据的行为评估:评估模型行为是否符合人类价值观。
•基于机器学习的自适应测试:AI驱动,提升测评效率与覆盖。
•基于形式化验证的逻辑测试:用于高风险场景的数学严谨验证。
•融合多种方法,形成“静态筛查→动态攻击→量化评估→场景验证”闭环:
4.测评对象(Where - 系统全栈分层):
•设施层:物理硬件、云环境、网络、基础软件。
•数据层:训练数据、用户交互数据、模型衍生数据。
•模型层:预训练/微调模型、参数、算法。
•应用层:终端应用、API、护栏机制、智能体。
•测评攻击面覆盖人工智能系统的四个核心层级:
5.测评度量(Result - 风险等级划分):
•基础指标:测量各安全维度的具体值(如对抗样本成功率、偏见指数)。
•综合风险等级:结合威胁严重性、影响范围、可修复性三维度,加权计算综合得分,划分为红(致命)、橙(高)、黄(中)、绿(低) 四级风险。
•补充指标:评估治理与可追溯性(如审计覆盖率、责任定位时间)。
•通过量化指标体系,将安全状态映射为风险等级:
幻影视界整理分享报告原文节选如下:











本文仅供参考,不代表我们的任何投资建议。幻影视界整理分享的资料仅推荐阅读,用户获取的资料仅供个人学习,如需使用请参阅报告原文。






评论