查看原文
其他

巨头「垄断」算法的时代,结束了?

鱼三隹 极客公园 2022-04-12


算法「黑箱」真的能被治理吗?


作者 | 鱼三隹
编辑 | 卫诗婕



3 月 1 日,中国首个专门针对算法推荐的法规《互联网信息服务算法推荐管理规定》正式执行。

《规定》要求,算法推荐服务提供者需向用户提供算法知情权、算法选择权(便捷的关闭算法推荐服务的选项),以及,针对向未成年人、老年人、劳动者、消费者等主体提供服务的算法推荐服务提供者作出具体规范。

截至目前,微信、抖音、今日头条、淘宝等App均已进行了初步的改善,上线了算法推荐关闭键。

作为 21 世纪数字生活的主要生产力之一,算法凭借数据量的爆炸与算力的提升,渐渐蔓延至社会的各个领域,影响信息分发、商品等社会资源的配置、执行自动化决策,无论在公共领域还是私人生活中,算法都是「强而有力」的存在。

从欢欣接受、感受其便利,到受其困扰、产生隐忧,算法如何「支配」我们的生活?用户真的能够放弃算法吗?新规如何制约「算法」的不当权利?相关法律法规经历了怎样的发展?《规定》内容是否会面临实践上的难题?

最近,我们分别与数字人文学者、互联网治理研究员以及大厂的前算法工程师进行了交流。



审视:算法如何

行使「权力」?

李大白:《算法的力量》

译者,数字人文学者



社会秩序的协调、合作与控制离不开信息交换,而通过对大量数据的处理与应用,算法已然成为了当今社会信息交换的有效载体,因此,说「算法代表着一种权力」并不为过。

《算法的力量》一书的作者,英国学者、大律师杰米·萨斯坎德多年来一直关注数字技术对政治、经济和社会的影响。在书中,他描绘了数字技术对私人和公共生活的全面「入侵」,其中,「武力」、「审查」与「感知控制」则是算法行使「权力」的三种方式。

《算法的力量》杰米·萨斯坎德著


「武力」是指已经编写好的程序在执行过程中无法被选择或中止,人们只能服从于算法自动给定的结果。

2009 年,奥巴马总统将 25 部美国经典电影当成礼物送给来访的英国首相戈登·布朗。然而,布朗回到伦敦后,却发现这些电影无法在他英国的 DVD 机上播放;原因是 DVD 制造商和发行商为了保护商业利益、实施版权法,将禁止播放的命令编成代码写到了 DVD 中,即便布朗已经是英国最有权势的人,面对算法设定的禁止指令也无能为力。

「审查」则主要是通过收集各项数据,对人们的行动进行监控、预测以及规范。

譬如最近网络爆出若干「算法系统监控员工行为」、「算法预测员工离职几率」的新闻,虽然相关互联网公司已出面否认这种说法,但这个事件本身就说明算法已经越来越普遍地用于对人们的工作进行测量与评估,甚至预测员工什么时候可能会离职,其结果是便是再现了福柯笔下「全景监狱」的场景:员工们不得不时刻关注工作时间的上网行为。

关于算法对人们「感知控制」的讨论要更多一些,核心概念有这些年常说的「信息茧房」和 「过滤泡」,指的是算法能够过滤信息、改变信息排序,进而影响人们对于外界的感受与认知。

人们接受的信息总是会受到某种「过滤」。在算法时代之前,过滤信息的职责主要由印刷品、广播、电视等大众媒体完成,如今,推荐算法在相当程度上承担了过滤的职责,其代表就是 2012 年 8 月上线,主打个性化内容推荐的今日头条。一开始大家根本没意识到它可能带来的影响,然而基于兴趣的算法推荐几乎从根本上改变了内容生产的逻辑。在其他领域,算法应用的场景也逐渐丰富,电子商务、外卖平台、打车软件也纷纷采用更复杂的算法体系、做更多维度的服务匹配,彻底构建起了以算法为主导的平台社会。

一开始,因为算法能够更精确、广泛地控制人们传递和接受的信息,在其刚被应用时受到用户热情追捧,所向披靡;然而,随着「大数据杀熟」、「外卖骑手困在系统里」等负面问题的出现,算法能「服务」人,但也能「利用」人的观念也开始深入大众。

国外的相关案例也不少。在 2016 年美国大选中,有学者发现,机器人水军「生产」了约 19% 的相关推文,为竞选人拉票;同一年,英国脱欧公投时,Twitter 上大约三分之一的流量来自自动程序,它们几乎都站在脱欧的一方。很难说这些算法编写而成的信息不会对人们的公共决策造成干扰。

算法越来越多地决定了谁被看到,谁被隐藏;谁入局,谁出局,哪些内容会像病毒一样传播开来,哪些内容注定无人问津。

今年 3 月开始实行的《互联网信息服务算法推荐管理规定》中指出,用户可以选择关闭算法推送,这无疑是正当的,因其为用户在算法使用上提供了必要的「退出机制」,让用户有权利选择是否接受算法对自我感知渠道的形塑。

问题是关闭之后用户将看到什么内容呢?

我在某内容平台上尝试勾选「关闭个性化推荐」按钮,随后该平台上呈现的内容几乎是无序的,无奈之下,我重新打开了「个性化推荐」。

如果说在算法主导内容之前,我们看到的是编辑精选的优质内容,那么在「算法」把关的情形下,没有个性化推荐的信息流很可能既没有营养,也不能满足用户的阅读需求。如果为了实现对算法推荐的自主选择权,要以损失优质的阅读或使用体验为代价,显然是大多数人不愿意看到的。如果平台抓住用户的这一心理,对于关闭推荐算法的用户「区别对待」,那么用户也只能无奈放弃手中选择的权利。

除了上述问题,由于算法在社会场景中越来越广泛的应用,也引发了人们对于算法是否公平、正义的质疑。

2014 年,亚马逊开发了一套简历筛选系统,对过去 10 年的简历进行关键词识别并排序,结果是该系统对于男性应聘者有着明显的偏好;2015 年,谷歌更新其照片应用的同时加入了一个自动标签功能,但却被纽约的一位黑人程序员发现,自己的照片竟然被打上了「大猩猩」的标签。

算法本身可能是「无罪」的,但是当它抓取、学习的数据不完整、或带有偏见时,歧视和不公正自然就内嵌到算法之中了。我们很难要求每个算法工程师都是通晓道德哲学、社会政策的「哲人王」,实现相对公正的算法,需要政治、法律、人文、社会学等各个学科的共同参与。


治理:「规范」之网的历史

方师师:上海社科院新闻研究所

副研究员、互联网治理中心主任



数字化、数据化和可计算是进入算法社会的门槛。通过各种量化和追踪技术,我们正在经历一个「数据盛世」。如何将这些数据有效、合理、创新地使用起来,就不仅仅是一个技术问题,还是一个社会问题。

在这方面,欧盟起步得比较早,他们在 2016 年发布的《通用数据保护条例》(GDPR)被称为「史上最严格的隐私和数据保护法」。

其实早在 1995 年,欧盟就曾发布过数据保护指令,只不过当时使用互联网的人很少,个人数据的收集及处理仅限定在用户名、地址及金融信息等方面。随着移动互联网的普及,这一指令的内容已经无法帮助欧盟应对不断出现的安全风险。

于是从 2012 年起,欧盟委员会开始重新审视个人数据保护的法律准则,逐步制定并完善了 GDPR。

同样是在 2016 年,国内出台了《网络安全法》,其中也提到了要加强对个人信息的保护。去年相继发布的《数据安全法》和《个人信息保护法》也是对网络数据和个人信息作出了专项规定。

但是在算法入侵的世界中,只对数据进行规范是远远不够的。

今年 3 月国内开始执行的《互联网信息服务算法推荐管理规定》就针对「大数据杀熟」、「不正当竞争」、「特殊人群保护」等社会关注的热点问题给予规定明确。这是我国第一个专门针对算法推荐的规章制度,在世界范围也是一个创举,一定程度上代表了当前对于算法技术治理的最前沿。

「规定」将坚持正能量、禁止推荐违法信息、落实主体责任等,列为算法推荐服务提供者最重要规范。对科技伦理的审查提上议程。

针对用户面对算法的无奈地位,规定也要求:要向用户提供便捷的关闭算法推荐服务选项。我关注到最新的消息是,截止到 3 月 15 日,微信、抖音、今日头条、淘宝、百度、大众点评、微博、小红书等 App 均已上线算法关闭键。

微信个性化广告关闭页面

开始执行的新规中,算法备案是一个值得关注的点。它要求算法服务提供者从内部打开算法黑箱、增加透明度,通过输出、建档、留存的方式,备案系统将成为可溯源存案。

3 月 1 日「互联网信息服务算法备案系统」已经上线了,现在即便是普通用户,也可以到算法备案的官网上去查询一下,这在一定程度上赋予了普通用户对于算法问题关注、讨论、监督的权利。

随着各项法规的出台,国内对于算法的「规范之网」正逐渐编织成型。与此同时,治理主体的分层定位也更加明确了。

国家网信部门负责统筹协调治理与监督管理工作,电信、公安和市场监管等联合成为治理主体,地方与之相对应的部门负责本行政区的相关工作。算法推荐服务的提供者要配合管理部门开展安全评估和监督检查工作,提供必要的技术、数据等支持和协助。

或者我们更可以把算法看做是网络社会中那条看不见的『关系线』,在经由算法所构成的治理之网上,不同层次、领域、来源的力量被召唤出来,进入到这张治理之网中,发挥不同的作用。比如平台和大型科技公司需要落实自身的责任,更多地与相关部门合作;公众也可以运用当下所拥有的权利,对于科技公司采用的算法进行监督。

对于算法治理的未来,可以将其看作是一个多元行动者的网络,治理会趋于规范和稳定,但是不会停止。


疑虑:算法黑箱真的

能够被治理吗?

刘鹏:《计算广告》公众号作者



我不否认近年来出台的法规政策在一定程度上具有其正面意义,但是对于这类法规能够具体起到的效果,我是存有疑虑的。

算法,真的不是那么容易就能监管好的。

我在清华毕业以后,先在微软亚洲研究院工作了一段时间,研究人工智能,之后又去了多家互联网公司做计算广告。一个明显的体会就是,现在大型的互联网公司应用的算法,它的不可解释性越来越强。

「机器学习」是目前算法推荐的主流实现形式,其学习的原始素材来自于每个用户的基础信息,比如性别、年龄、学历等等,以及用户在使用过程中产生的使用数据,比如点赞、收藏、关注等等,用户的每一类信息被称为「feature」特征。

最简单的一类算法是线性回归算法,在这类算法中,用户每项特征所占的权重是清晰可见的,因此其具有「可解释性」,监管难度并不高。

但问题在于,简单的算法能够解决的问题十分有限,为了提升效率,越来越多的互联网公司采用的是更为复杂的深度学习算法网络。

很多人会用「炼金术」来形容深度学习。

在古代,炼金师们会将收集来的各种材料一股脑地倒进火炉中,一段时间后再看看是否炼制出了黄金,他们并不知道炼制的过程中这些材料发生了怎样的化学反应,只能通过不断尝试材料组合与炼制流程。

与之类似,算法工程师们将各种可用的数据信息,都放到复杂的深度学习模型中进行训练,即便他们找到了更高效的算法模型,也并不能解释清楚这些数据之间经过了怎样的运算与处理。

在这种情况下,很难说清究竟是哪个特征对于算法输出的结果具有关键性的影响,算法的运作过程成为了难以解释的「黑箱」,其中隐含的问题也就难以修正。

去年 8 月《推荐算法规定》征求意见稿刚发布时,我就曾在自己的视频号上从技术角度进行了解读。

我觉得大家首先要理解的一个点是,算法的世界与人类世界在组织方式上有很大的不同。

比如我们人类在学习围棋的时候,是先学习定式、棋理,融汇贯通之后棋力提升了自然就会赢棋。但是算法学习的过程是相反的,它会先立下一个目标——「我要赢棋」,在算法中我们称这个目标为「目标函数」,然后再调用一切可以运用的数据去实现这个目标。

在通向这个目标的过程中,即使你设置了诸多障碍,复杂的算法网络也会绕过这些限制,通过其他的方式达成目标。

因此,在算法的世界中最重要的其实是那个「目标函数」。

假设一家公司的「目标函数」是要优化用户的留存时间,那么即使进行了限制时间等防沉迷设置,算法模型还是会采取别的途径来提升用户在平台上的使用时长。

「目标函数」才是算法治理的「命门」所在,但这一点经常会被各国的立法者所忽视。

现在的规定只是要求公司以「适当的方式公布算法推荐服务」,但并未对什么是「适当的」作出限制。

如果有些公司在公布算法时,只选择性地公布算法在关键环节上的特征,看起来是做到了公平、透明,但由于你不知道它真实制定的目标函数是什么,这种公开的作用就十分有限了,甚至可能根本就没用。

与此同时,公开算法的背后还涉及到另一个问题:一些算法对于公司或者商业机构而言,与其商业机密有关。

商业机密是受到法律保护的,那么我们如何去界定哪些算法应当被公布、哪些算法应当被保护呢?如何在不使企业的商业机密受损的前提下,最大可能实现有意义的算法透明,还有很多问题仍需进一步的思考。



*头图来源:装置艺术 Parallels (MINI & UVA)

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO


极客一问

算法该如何调和便利与隐私的边界?








您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存