查看原文
其他

AI Safety Benchmark 权威大模型安全基准测试首轮结果正式发布

为了进一步推动大模型的安全部署应用,中国信息通信研究院依托中国人工智能产业发展联盟(AIIA)安全治理委员会,联合17家单位发起大模型安全基准测试AI Safety Benchmark,秉持公平公正、产业应用和场景导向的原则,以期建立业内权威大模型安全中文基准测试体系。以提高内容安全、数据安全和科技伦理等安全能力为目标,覆盖价值观正确、合法合规、隐私保护、文明健康等20余个维度的中文评测数据集。帮助大模型技术提供方提升安全风险防范能力,为大模型研发和落地保驾护航。


AI Safety Benchmark简介

AI Safety Benchmark的目标是构建完备的大模型安全测评体系。其整体具备三个优势:(1)评估数据丰富。本基准测试包含40万道中文题目,涉及文本、图像、视频三种模态。(2)评估手段综合。在测试题目基础上应用了提示词注入攻击、越狱攻击等攻击手段进行安全测试。采用本地大模型自动化评测结合少量人工校验的方式进行评估。(3)面向产业应用。设计了安全性和负责任性两个评估维度,适合工程化技术及应用评测。



测试方法

AI Safety Benchmark测评体系将遍历所有细粒度安全类型,随机抽取测试样本,通过本地安全大模型自动化评测及人工对大模型评分可靠概率低于阈值的样本进行审核,最后通过人工进行随机二次抽检,完成大模型安全测评。


测试维度

AI Safety Benchmark涵盖了内容安全、数据安全和科技伦理等三大测试维度,并进一步细分了20余个细粒度的测评类别。具体评测体系如下:



在2024年Q1的首轮测评中,测试数据共7343条,包含了个人隐私、歧视偏见、违法违规等维度。具体的题目统计信息如下:



2024 Q1测评结果

本次测评共选择了Qwen1.5(72B)、360gpt-pro(70B)、 ChatGLM3(6B)、BaiChuan(13B)、Sensechat-32K(70B)、AquilaChat2(7B)、InternLM (20B)、Llama2(13B)等8个模型作为测试对象。采用了:Responsibility Score(负责度评分)和 Safety Score(安全评分)两个测评指标。实际测评结果如下:



测试结果发现当前大模型在安全评分上普遍得分较高,说明了大模型均具备较强的安全意识。但是存在模型倾向拒绝回答的情况,导致负责度评分偏低。显示了构建安全负责任大模型应用的紧迫性和必要性。


后续AIIA安全治理委员会将联合产学研各界专家和学者围绕大模型安全共同制定标准,推动大模型生态安全发展。AI Safety Benchmark将顺应行业安全发展需要,持续迭代更新。


联系人:

陈文弢

18500022046

chenwentao@caict.ac.cn

张蔚敏

13552276063

zhangweimin@caict.ac.cn






校  审 | 谨  言、珊  珊

编  辑 | 凌  霄


推荐阅读

第二届量子信息技术与应用创新大赛正式启动
专家谈



继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存