首次「模型技术安全与治理」主题研讨会要点解读，欢迎加入组织

智源社区智源社区 2023-01-22

收录于合集

AI模型能力与融入生活的速度日新月异，它懂语言、会写代码、能绘图画、演奏音乐，甚至具有身体，然而潜在伦理问题与安全⻛险也初露端倪。人类重视核电、航天这些能力强大工具的安全性，但对AI模型却尚未如此。尽管研究正在增⻓，但尚无应对未来⻛险的总体计划，以及有效的实践总结，甚至为取得技术优势也会以牺牲安全为代价。是打开黑箱、对⻬价值，还是限制能力？本次研讨会以「模型技术安全与治理」为主题，邀请同行分享经验，探讨共识，达成协作。

在青源Workshop第12期「模型技术安全与治理」主题研讨活动上，智源研究院付杰、安远AI谢旻希、方亮、Dartmouth刘睿博、USC赵洁玉、GMU 竺子崴等研究员在引导报告环节分享了他们的观点，另有20余位大模型伦理安全领域的学者参与了后续闭门讨论。我们将本次活动报告与讨论公开部分的主要内容整理成文。

活动亮点与倡议：1. 这是国内首次聚焦大模型安全主题的研讨会， 20家国内外机构的一线研究人员参与了本次研讨；2. 参与成员倡议国内大模型主要参与机构，共同探讨、研判和发布安全和治理最佳实践；3. 参与成员倡议共建大模型涌现能力和潜在风险数据库，并讨论了可借鉴安全领域白帽的报告方式披露和促进这一领域的发展；4. 活动后计划持续社群建设，开展定期邀请报告、文章，以及研讨活动；5. 本次讨论主题，不止与安全伦理有关，相关技术也与构建及提升模型性能有关。

如果你正在从事这一领域研究，欢迎扫码申请加入我们的行列

引导报告1：Social Alignment for Social Good

北京智源人工智能研究院付杰

在聚会游戏Would You Rather中，可以将相同问题下Bert模型的选择与人类的选择进行对比，来判断模型是否具有社交价值（social value）。我们2020年的一篇ACL文章中假设，如果模型的选择与整个社会的大多数人选择相同，那么这个语言模型是相比于其他语言模型是更加安全一些的。当时的测试结果表明，大部分模型“猜对”的概率最高也只有60%左右。举例来看，在选择“happy with friends”，还是“popular without friends”这种在人类价值观中很显而易见的题目时，模型会选择错误。

同样的问题也可能会出现在视觉模型以及地区特征偏差模型当中。所以付杰认为，如何让目前的模型学会不同人群的社交偏差和文化偏差，是大模型需要解决的一个问题。

引导报告2：近期模型技术安全与治理观点总结与思考

安远AI 谢旻希、方亮

近年来，大模型AI已经引起了学界和业界的关注和探讨。如青源会的报告认为，大模型的安全性引起关注，是未来的展望方向之一。人们普遍关注的问题包括：如何实现可控的生成，理论上让模型变得更可解释，确保模型输出符合社会伦理等。在此背景下，安远AI认为，大模型的安全与治理需要由零散的关注提升到系统性的布局。

目前，不少大模型的部署已经意识到了单一的社会风险，例如歧视和仇恨言论，以及AI被恶意使用的危害。但在全面的研究和应对方案上还有提升的空间。值得参考的是，国际业界已经出现了专注大模型安全的科研团队和项目，如OpenAI在训练InstructGPT和ChatGPT时采用了RLHF（通过人类反馈强化学习）技术，DeepMind在开发Sparrow时定义了23条规则和伦理底线，Anthropic和Conjecture是专注大模型安全的创业公司等；国际学界也有关注大模型安全的研究团队和学者，如Percy Liang在斯坦福建立了基础模型研究中心，联合100多位研究员发布一份基础模型和机遇的风险报告，纽约大学刚刚成立的相关的研究小组，牛津，剑桥，多伦多大学，伯克利分校也都有教授在进行相关的研究。

12月16日，大模型安全与治理论坛的会议中也表达了一些国际前沿的研究和观点。大模型技术正在飞速发展，但它本身也存在局限性和缺陷。比如系统会给出不真实的答案，反映出偏见，做出人们期望之外的事情等等。论坛邀请演讲嘉宾关注这些大模型的安全问题，并通过不同的议程，取得了部分进展。比如Jacob Steinhardt教授讨论了语言模型的真实性问题；Chris Olah主要讨论了机械可解释性，对神经网络进行逆向工程，帮助人类进行理解；Samuel Bowman则讨论了人工智能安全社区。
2022年6月，Cohere，OpenAI和AI21labs联合发布了语言模型部署最佳实践，安远AI倡议，继续扩大大模型技术安全的社区，并且在国内发布一个符合中国情况的部署最佳实践。目前至少有三种可能的参与方式：1，由一家机构牵头；2，几家机构联合发布，类似OpenAI等的发布形式；3，个人版本，比如学者以个人名义参与讨论和背书。大模型涌现能力和潜在风险数据库，也可以考虑借鉴信息安全领域的平台-社区生态-国际标准模式。同时，为了促进参与也要设计相应的激励机制。

引导报告3：让机器具有人类价值观

Dartmouth 刘睿博

为什么语言模型预训练不能保证符合人类的价值观？刘睿博以古德哈特定律为基础给出了解释：

人们可以利用更多的计算资源来降低模型的损失，同时模型也会随之变大。一般对模型进行预训练时，使用的是交叉熵损失，评估时则使用混淆度来评价文本的流畅度，可以说模型越大，越能更好地记住人类语言。但逼真的人类文本生成，不等于模型拥有价值判断。古德哈特定律表明：当一个指标变成目标时，它就不再是一个好的指标了。当人们使用“文本流畅度”这个指标来尝试让模型更加像人类时，越来越强的人类文本记忆能力很可能会让模型与人类价值观相行渐远。比如模型可能会混淆虚拟与现实，比如报道偏差（reporting bias）问题，比如编造事实问题。

这种现象实际上是AGI的目标函数和损失函数的不匹配，或者说，最终目标与代理目标之间的不匹配造成的。而这种不匹配在人类世界也很常见，比如“素质教育不能只看成绩”，“官员能力不能只看GDP”等。

如何让AI拥有人类的价值观呢？刘睿博从两个方面给出了建议：

数据方面，除了现有的1-7 Likert Scale或者简单的二分判断，应该有更好的数据格式支持模型价值观的学习。刘睿博也在研究从文本编辑中学习如何让模型符合人类的价值观。他认为，模型符合人类价值观的程度是难以定量标定的，因而可以使用动态规划推断两个文本之间的编辑操作，让模型学习文本的编辑过程，从而更好地学习人类的价值观。

算法方面，以近期大火的RLHF为例，刘睿博提出了几个问题：首先RL采用的是单步优化，那么能不能进一步对每一步的词汇做优化呢？其次，它的奖励模型该如何选择呢？如何克服RL在语言模型中训练不稳定的问题？以及如何解决Alignment Tax问题？早在ChatGPT出现之前，刘睿博就曾使用词向量或者分类器作为激励函数减少语言模型重的偏见。

刘睿博认为，未来，这个课题主要有4个发展方向：多模态价值拟合，更有效率的价值对其算法，更好的人类评估，以及考虑人类价值的下一代人机交互。

引导报告4：可信赖的自然语言处理模型

——关于偏见问题的检测与消除

USC 赵洁玉

近年来，NLP模型的表现令人瞩目，比如，在Coreference Resolution任务中，模型可以准确处理文本信息，并提取其中复杂的人物、地点等关系。Coreference模型的模型性在过去的十几年间发展非常迅速。又比如在Question Answering任务中，去年就已经出现了可以比人类做得更好的模型。

在大模型的帮助下，每年都有更多强大的模型出现，很多以前在NLP领域难以解决的任务，也在被迅速地逐个击破。但是，这些看似强有力的NLP模型，是否已经满足人们的要求了呢？事实上，当把这些模型应用到实际时，输出的结果往往不尽人意。所以赵洁玉认为，我们实际上正处在构建NLP模型的中期，甚至是早期阶段。

现在的NLP模型往往有各种各样的问题，而赵洁玉的研究聚焦于偏见问题（Social Bias）。

比如还是在Coreference Resolution任务中，给出文本“President is more vulnerable than the most. He ...”时，模型是可以识别句子中的“He”与“President”是同一个人。但是由于偏见，但把句子中的“He”改成“Her”，模型就不能成功识别。

赵洁玉等人构造了一个WinoBias Dataset，来检测Coreference Resolution任务中的偏见。她们发现即使模型在benchmark中表现很好，在用于检测的数据集上也会表现出很大的偏见。

这种偏见同样也存在于machine translation，toxicity detection，dialogue system等任务中，而这样的偏见往往会影响到日常的应用，甚至会在社会生活中造成更严重的伤害。比如一个Medical QA的模型，如果对某些病症产生非常大的偏见，那么相关的病人将很难得到相应的治疗。

好在目前这种偏见已经被人熟知，也有很多研究团队在进行这方面的研究。刘洁玉也希望能够构造更广泛的可接受，可信任的语言模型，她的研究主要聚焦在偏见的检测与消除问题上，为了更好地研究模型的偏见，她的工作覆盖了从数据收集到模型输出的整个过程。

引导报告5：Toward Responsible

Recommender Systems

GMU 竺子崴

推荐系统（Recommender Systems）已经成为人们日常生活中不可获取的一部分。在工业界和学术界共同的努力之下，推荐系统几乎无处不在，极大地影响着人们生活的方方面面。这种广泛地参与，导致推荐系统能够对人类社会产生非常大的影响。比如影响流行文化的扩大方向，影响人们的生活方式，甚至影响到社会的经济发展，公平公正。而很多时候，这种影响往往是负面的。

有研究表明，推荐系统会在求职和书籍出版等领域出现一定程度的性别歧视；某些视频网站的推荐系统则会给儿童推荐不合适的内容；社交媒体上的推荐系统，甚至可能导致社会的割裂和两极分化。竺子崴认为，我们绝不能对这些危害视而不见，所以他们的研究目标是建立有社会责任感的推荐系统。一个最基础的推荐系统，包括用户，反馈数据，和算法模型。他们希望能够发掘，分析并设计有效的算法，从这三个基础部分入手，来解决各类推荐系统中的潜在的偏见和不公平。

研讨与倡议

共性观点：

1、大模型应当具有较好的可解释性，好的模型解释应该可以用于推理和预测，即人类可以根据模型的解释来预测它将作出的决断。
2、机器本身不具备人类的价值观，需要更多的工作研究如何对人类价值观（Human Value）进行建模，以及比较什么样的价值观是值得被提倡的。
3、不同区域的AI可能需要学习不同的价值观。
4、随着大模型的民主化，它在安全的攻防领域会被更加频繁的使用。

问题1：在要求模型做出某种行为并给出解释后，如何保证这个解释是人类可以理解，且真实合理的？（因为模型很可能给出一个看似合理的解释。）

钟瑞麒：我对语言模型可解释性的一种理解是，所有的解释性都是局部的，它并不能解释模型整体的设计。如果要解释模型整体，只能用模型权重（model weight），但是这种解释对人类并不适用。我认为好的解释应该是可以用于推理和预测的，人类可以根据模型的解释来预测它将作出的决断。

彭煦潭：从NLP角度来看，如何让解释被人类接受，可能会涉及到一些人机交互相关的工作。比如为了解释模型最终的角色，一种方式是让模型提供它做决策时用到的相关的原始数据。比如ChatGPT，如果能在给出回复时，将引用的外部链接或者文章一起给出，那它的可解释性就能提高很多，因为人们可以溯源；而对于一些并不很依赖外部知识做出回复的模型，可能可以将在测试阶段对它的决策产生影响的训练集罗列出来，甚至给出这些训练样本影响自己决策的权重。当然，这种解释性要求模型给出的原始数据不能造假。

钟瑞麒：其实模型给出假的原始数据，假装自己的决策公正的情况很可能发生，尤其是在无监督的条件下训练模型时。这种伪装是目前判断不了的。而且模型越大越容易隐藏人类的reward function，从这个意义上，大的模型反而更危险。

王岚君：我提一个比较古早的概念，可解释分为两类，第一类是基于模型的可解释性，这种可解释性本质上可能是人类无法理解的，它反映的是模型本身是如何运行的；第二类是基于人的可解释性，在找到可解释性后引导模型往人能理解的方向上发展，但我们无法确定给出的解释是否是模型本身的意愿。我在近期的研究当中，也开始考虑加入一些人的知识，把让人可解释的模型的能力展示给程序员或者开发者。

黄思聪：如果把语言模型看成一个模拟人的行为的模拟器，那它的解释跟人类的解释可能会比较类似。但人类会找借口，对同一个问题，不同人的解释也不同，所以我认为解释性的问题可能要看问题本身。我认为最靠谱的方式还是根据解释进行预测，然后对预测进行验证。

刘睿博：如果一个模型能够输出人类可以看懂的信息，那人类就可以跟它进行互动从而进行反馈，这个系统就会越来越强。在我看来，可解释性在某些任务上并没有那么重要，性能最重要。但是在跟人的互动过程中，可解释性的确有它的意义，而这应该属于一个更大的命题——人类如何跟AI对话。另外的问题，在用小模型训练的时候，生成模型跟reward model如果都比较小，就很容易陷入崩溃。但是当模型大到一定程度后，这种情况就很少发生了。所以说我个人认为是不是也存在一个规模问题，当模型达到一定的程度，就不存在这些问题了。

问题2：从产品层⾯看，⼀个好的语⾔模型应该能如实回应任何⼈类指令。⽐如⼈类指令可以是产⽣不好的⽂本作为某种训练的负例。然而从社会⻆度看我们希望AI应该有和⼈类一样的道德标准。请问在这种情况下我们该采取什么标准？我们对语⾔模型的定位究竟是⼯具，还是⼀个可能具有社会属性的⼈？

刘睿博：人类价值观（human value）很复杂，首先，不同国家不同地区的人的价值观不同，人类对于价值的定义首先就是一个难点。我觉得这个社区需要更多的工作去研究如何对humen value进行建模，以及比较什么样的价值观是值得被提倡的。第二点，我觉得following instructions可能不太需要很深刻的价值判断，但是human value还是需要一些背景知识，所以在算法上的挑战也比较大。

段雅⽂：我认为研究语言模型对同一个问题在不同社会背景下的价值观是非常必要的，因为RLHF这些技术其实是在做一个趋向任务，来趋近操作者的意图，而没有真正地给机器注入普世的价值观。

问题3：如何克服⼈类价值在不同属性下的差异性？⽐如亚洲国家重视家庭，西⽅国家重视个体的⾃由。⽤同⼀套标准显然不合适。但似乎也有⼀些⼈类共有的价值，⽐如诚实，礼貌，有同情⼼，等等。那么在模型开发阶段，如何能考虑到这种⼤⽅向下的具体差异，以及在模型应⽤时⾯临的本地化挑战？

黄思聪：我去听了耶鲁大学相关的公开课，那位教授的观点是，不存在一个符合全人类价值观的价值体系，所以政治才会存在。但是他们也尝试不断改进价值体系，当模型更好的时候，可能可以适当地中和价值体系中harmless和helpful的冲突。但是最后问题还是要回到不同具体情景下，我认为这是一个open question。

谢旻希：关于RLHF通过人类反馈强化机器学习这点，其实所有的科研机构和提供反馈的人类在进行训练时都处于具体的社会环境中，可能有偏见。最近有人对ChatGPT进行了一个Political Compass Test，看它体现什么样的政治立场，发现ChatGPT通常是libertarian和left-leaning的。更深层次的一个问题是，我们是否知道哪一个道德理论是对的？我认为我们人类目前不知道。所以让机器追求单一的最终目标可能有风险。因此，我们在构建AI模型时，可以让它在追求目标时保留对道德理论一定程度的不确定性。

陈欣：涉及不同区域人类价值观的问题时，一个更能适应本地价值的模型，很可能是一个通用模型的变形，比如说增减一些特征等等。但是对于很多人类关心的任务来说，我们并不知道真正的因果图是什么。我觉得我们现在面临的一个局限在于，人类只能从AI在一个具体环境里的行为判断它有多符合人类价值观。但是这对可解释性要求比较高的人而言显然远远不够。

赵洁玉：不同的社会对同一个问题有不同的看法，所以针对不同的社会群体，我们也不能用同一套规则来研究。我们现在也觉得，关于bias的这些定义，比如说关于NLP的一些工作，可能只是我们从CS的角度来说的，但其实用户是不是真的关心这个问题目前还不太清楚，还是要多跟已经在这个领域工作多年的专家交流。

邹嘉鸣：跟用户互动肯定是一个解决方法，另一方面，我们或许可以建立一个类似于道德集合的模型，如果我可以教模型做到价值判断，那么在一定程度上，它就可以在不同的地区，自己摄取不同的factor。

苏炜杰：我们希望像ChatGPT这种AI能符合人类的道德准则，但它毕竟不是人类，它可能会有自己的一些特有的道德要符合。未来可能会有很多国家和公司研发类似ChatGPT这样的AI，那么随着不同背景的AI的交互，就会产生一个博弈的问题。在这个过程中，可能会产生新的道德规范，就像我们人类的道德也是在不断的博弈中慢慢改变。一个很有意思的问题就是考虑不同AI在博弈之下会形成什么样的准则。

刘睿博：OpenAI现在的政策可能是，AI在第一次回答时尽可能把所有方面都回答全，然后根据用户下一轮的交互推测用户的立场。所以我觉得这些value的问题可能是可以通过不断的交互来逐渐明确。通过交互，可能每个人得到的答案都不同，也不一定是最优解，但是用户的满意度会很高。这种政策不是通过预训练的方式解决道德问题，而是通过不断的交互来解决，我觉得这也是一个很有意思的方向。

问题4：当前关于模型安全性的讨论，集中在内容安全性（例如真实性，公平性等）。随着应用的不断深入，大模型可能会对其他的安全相关领域（如信息安全，软硬件安全）带来哪些影响？学术界和工业界如何应对？

钟瑞麒：针对大模型可能被攻击这个问题，可能直接从权限设置的角度对模型进行保护会更加方便。而如果未来的大模型越来越复杂，以致于我们没办法仅仅通过权限来限制它的访问，这种情况下，把这个问题归入大模型安全性的讨论会比较合理一点。另外，我在想大模型是否会增加黑客攻击其他安全系统的可能性。

彭煦潭：我们的一项工作显示，权限设置已经不起作用了。比如查询已经是数据库中最低级别的权限，但是大模型可以让它输出一些恶意代码，从而直接读取一些本不应该被普通用户读取的信息。所以我觉得大模型在设计当中就需要考虑到这一点。关于黑客问题，之前我见过一些利用大模型生成恶意代码，来攻击安全系统疏漏的例子，这种研究之前已经开展了。我相信随着大模型的民主化，它在安全的攻防领域会被更加频繁的使用。

安远AI：整体来说我们认为，AI社区应该更好地理解大模型或者其他AI系统已经出现的风险和事故，这也有助于我们做更好地防范和预判。现在国内外已经有不少相关的案例库，比如谷歌，中科院等都进行了相关的研究，我们也很有兴趣推动这方面的相关工作。

近期活动回顾

艺术家与AI研究者的跨界碰撞丨记青源Workshop「AI+艺术」研讨会

打造有身体的 AI丨记青源Workshop具身智能与机器人研讨会

更多内容尽在智源社区公众号

“家属和记者取得联系”：记者的退场意味深长

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

这位副市长，跨省升正厅

女主播性感斗舞，直播间惨遭拿下！知名团播整大活，邀女嘉宾家人做节目

要么空仓！要么盯紧这个！

首次「模型技术安全与治理」主题研讨会要点解读，欢迎加入组织

您可能也对以下帖子感兴趣

“家属和记者取得联系”：记者的退场意味深长

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

这位副市长，跨省升正厅

女主播性感斗舞，直播间惨遭拿下！知名团播整大活，邀女嘉宾家人做节目

要么空仓！要么盯紧这个！

生成图片，分享到微信朋友圈

首次「模型技术安全与治理」主题研讨会要点解读，欢迎加入组织

您可能也对以下帖子感兴趣