查看原文
其他

智源伍昱:被AI“耽误”的文艺青年,用技术对抗偏见

李梦佳 智源社区 2023-01-22

她力量

近年来,“她”力量正在科学家群体中快速升温。


在一年一度的妇女节到来之际,智源社区选取了五位颇具代表性的女性科学家,进行了深度访谈。在她们中,有人选择食物图像识别,对选择的科研方向热爱到底;有人享受不确定的科研乐趣,在统计+生物学研究上更向前一步;有人也曾在读博和带娃的困难中迷茫,用理想温暖10年科研路;有人以科幻电影为启发,走上人机交互之路;还有人从Facebook大厂回国,做更有温度的AI研究。


从她们的故事里,我们得以一览当代女性科研工作者的独特风采。



导读:初识伍昱,可能最先会被她温婉、柔美的外表所吸引,而她的履历上却赫然写着保送北大元培实验班、加拿大多伦多大学计算机硕士、Facebook AI资深研发工程师等等,让人不由得感叹一句“硬核”
 
现在的她已经加入北京智源人工智能研究院担任技术平台部开源平台负责人。而面对这些履历,伍昱在访谈中给我的感受主要是谦逊,“我很幸运能够在求学与职业生涯初期有这样好的机会,并在这样的机会上尽量地成长自己。”
 
在她身上,既有醉心科研的沉实冷静,又有深爱文学艺术的浪漫优雅。每每走在北大未名湖畔,她总会忆起昆曲中的唱段。而谈到漫漫科研路,伍昱最先想到的却是中学时期因为打竞赛加入的国家集训队。

撰文:李梦佳


01


中学时代的小集体,科研基础的萌芽

 
谈到学生时代影响最深的阶段性事件,伍昱首先谈到的就是中学时代的小集体。
 
在长沙雅礼中学,伍昱因为参加信息竞赛加入国家集训队,进而机缘巧合结识了一群自小热爱数理化、并肩作战的小伙伴,未曾想这群小伙伴在后来的求学跟职业生涯中互相帮助,一起成长。普林斯顿大学计算机系助理教授陈丹琦也在其中。
 
也许是一种冥冥之中的巧合,中学毕业后,大家如愿考取了清华、北大、上交以及耶鲁等国内外高校念书,并一直保持着联络和职业路上的交叉重合。
 
“我们中学时期就认识了,在一起好多年。在我们这一小波人当中,有好几位后来做NLP方向研究的人都做得很不错,也有几位在互联网公司担任中高管、资深技术IC,在科技圈做创投等等,甚至包括我当时去Facebook也是我们的师兄张一飞极力推荐。除了陈丹琦,圈子里比较知名的还有陈尔东。他以前在硅谷做高管,后来主要在创投,人脉也很广。”伍昱谈到这个小圈子的人和事,不乏兴奋和自豪。
 
信息竞赛的核心是要解决问题。往往是提出一个偏数学的问题,需要用编程去解决,这些问题对当时的伍昱来讲是很有意思的。
 
“回过头来看,相比于当时那些奖项,更重要的是能够有这样的集体跟环境,通过竞赛所认识的人,参与到这个过程中,学习到的方法比单纯的奖项更有意义。”
 
同时,正是因为集训队的磨练,伍昱顺利地获得了北大元培的保送资格。“至少不用花大量时间去刷题。竞赛更多的是去解决新的问题,训练一种思维方法。
 
对伍昱来讲,早期信息竞赛的磨练对于后来从事计算机以及AI相关的科研和工程是有一定影响的。“如果没有早期的接触,我有可能不会从事这个行业。”


02


和昆曲结缘,引发AI+艺术的思考

 
在北大,繁重的学业以外,伍昱接触到了一项新的爱好——昆曲。
 
从业余爱好到接近专业级的表演,伍昱经历了一个循序渐进的过程。“一开始纯粹是听到觉得很美妙,昆曲的词非常典雅,曲子也很动听。它的整套表演体系,是一项非常高级的艺术,很吸引人。我以前更多是从观赏者的角度去欣赏这门艺术,在北大也参加过北大京昆社,大家平时也会唱唱曲、看看演出。”
 
伍昱至今回忆起《牡丹亭游园》里面的唱词,都会觉得回韵悠长。
 
“朝飞暮卷,云霞翠轩;雨丝风片,烟波画船”

 
每当她走在北大的未名湖畔,雨后初晴的天气,在未名湖的石坊边,伍昱就会想到这几句词。
 
还记得那是个暮春时节,在北大治贝子园的门口有两棵玉兰树,一棵上面的花刚开,另外一棵花瓣已经败落,在北大哲学系教授楼宇烈组织的曲会上,当时一起唱曲的几个人就围着这些玉兰树看,这些美好的景色至今还停留在她的脑海中。
 
“后来我学习这段表演,作为杜丽娘,会去揣摩,比如看到‘云霞翠轩’的时候,眼神应该是什么样,此时的心情,又应该用怎样的身段动作来表达。”
 
而等到伍昱真正花时间去学习昆曲这门艺术,还是到了纽约海外昆曲社,和华人艺术家们有实际接触之后。
 
“这也是一个机缘巧合,昆曲是中华文化的瑰宝,正巧在美国时期遇到有一批顶尖的昆曲艺术家,他们在很早的时候就移民到美国,在美国做积极的昆曲传播,以及教授昆曲这门艺术”。
 
这些国宝级艺术家在昆曲界有“大熊猫”的称号,对伍昱关怀备至,亦师亦友。其中有三位老师对她帮助很大,包括昆大班的华文漪,以及两位昆二班的史洁华、涂畹芳,她们都曾在海外昆曲社、美西昆曲社等昆曲社团教授学生。华文漪是她的时代里最知名的昆曲女演员之一,有“小梅兰芳”的美誉。1997年,华文漪荣获美国最高传统艺术奖,是该奖开始至今首位华人艺术家,希拉里为其颁奖的。她还参加过白先勇的话剧《游园惊梦》,以及参与指导青春版《玉簪记》。

“正是因为向大师们学习的经历,我摸进了这项艺术的门,看到了里面的光鲜与美好。虽然我没有从事艺术这条道路,但是我能够看到这些东西,对我来讲也是非常特殊的。”
 
随着学习的不断深入,从文词、音乐、唱段,到真正体悟人物的情感和心境。伍昱对这门艺术有了更深刻的理解。而折射到AI研究中,伍昱认为,艺术也能够帮助思考AI当中的创造性问题。
 
科研和艺术相通的地方,都是在探索人类能力的边界,无论是知识的边界,还是创造力的边界,艺术是很需要创造力的工作,它和人本身相关,就你想要表达的东西,根据你的经验,来与世界去交互创造的过程。”


03


在多伦多大学,图灵奖大师也会犯错

 
在伍昱的人生中,她屡屡和各类大师结缘。这种缘分一直延续到了求学生涯的后期。从北大毕业后,伍昱迎来了她的研究生时代。在多伦多大学,她邂逅了对她影响颇深的计算机系理论组导师Toniann Pitassi,组内还有非常知名的教授Steven Cook。

Steven Cook在1982年由于提出P v.s. NP问题而获得图灵奖,是一位传奇人物,当时已经年愈古稀。“他在如此高龄的年纪仍然会从早到晚都在他的办公室里做科研,醉心学术,淡泊名利。而一走进他的办公室,一屋子的奖状和荣誉让我非常震撼。”伍昱回忆说。
 
在伍昱的印象中,他会每天上下班扛着一辆自行车从校门口经过。一个获得如此顶尖荣誉的人,却一直坚持地过朴素的生活,和普通的老爷爷没什么区别。
 

伍昱和图灵奖得主Steven Cook


除了科研,在教学方面,Steven Cook也是一如既往的求真求实。在课堂的讨论中,伍昱更深入地了解到这位大师的真性情,“在他教授的计算复杂性——Computational Complexity这门课上(这是Cook拿图灵奖的领域,他是绝对权威),他留了一个作业,我发现其中的描述不够严谨,存在一些小问题,就去找他讨论,第二次上课的时候他就会在课堂上公开地提出,我们来做一个修正。我从他身上学到,一个拿到图灵奖的人,即使在自己最权威的领域,也有可能会有犯错的时候。学术不存在权威,只存在真理。


04


Facebook这8年,工程的无限魅力

 
如果说此前的学生时代是科研基础的萌芽,那么在多伦多大学毕业后加入Facebook的8年才真真正正让伍昱体悟到了工程的魅力。
 
工程是很powerful的事情。我最初加入Facebook是在新闻排序组担任机器学习工程师,当时参与了不少工程项目。在Facebook经常谈的一个词是Impact,工程师往往有很大的能量,可以做出影响数十亿用户的产品。我当时加入Facebook AI research 有两个愿景,希望将最前沿的科学研究应用到产业中,另外也希望提升自己的科研能力,做出一些科研成果。”

伍昱在FAIR


在FAIR,伍昱同时实现了这两项目标,研究方面,她的关注点主要是自然语言理解相关,理解和生成,以及推荐和检索方面的工作,目标是思考机器如何去学习和理解语言。同时由实际场景驱动,在模型的fairness方面进行了探索。

工程方面,她的团队产出了很有影响力的工程工作,其中最自豪的项目之一要属StarSpace项目。据她所说,这个项目扮演的是一种在研究和工程之间桥梁的角色。

2017年,Facebook AI Research发表了一篇文章,StarSpace: Embed All The Things! 当时伍昱的合作者Jason Weston也是非常值得一提的人物,他不仅仅是一位顶尖研究者,还是一位神奇的艺术家。在Facebook从事研究之余,他还热衷VJ(DJ指电台里面配音乐,而VJ是在音乐基础上加上画面visual)。他还热衷服装设计,有一个服装设计的网站,穿的衣服、用的包和鞋都是自己设计的。
 
Facebook研究员Jason Weston

Jason在加入FAIR之前还参与了一篇重量级的文章,Natural Language Processing (Almost) from Scratch(https://www.jmlr.org/papers/volume12/collobert11a/collobert11a.pdf),这项工作讲述如何用neural nets来做NLP中的任务,当时完全不被主流学术圈认可,前后两年才发表,但是后来拿到了 ICML 2018的Test of Time Award。
 
“往往这样的开创性研究会有不被当时的主流学术圈认可的境况,但后来成为了主流。”伍昱谈到Jason时这样回忆说。
 
回到伍昱和Jason的StarSpace项目,该项目侧重强调在NLP中 word embedding的概念。该项目延续了Jason之前的工作“WSABIE: Scaling Up To Large Vocabulary Image Annotation”当中的思想,即将word embedding扩展到不同实体,所有东西都可以embedding,比如people、group、interest、picture,一切能想象到的东西皆可作为实体,并且通过对比学习的方法,让相近似事物的embedding更相近,不相关事物的embedding更远。
 
“在这个项目之前,更常用的是supervised learning,需要大量的标注数据,而在Facebook中有很多semi-supervised的数据,是有一定的标注属性,可能是一些自动标注的属性(比如帖子上的hash tag),这样的信息也可以利用起来,通过对比学习的方法,构建一些物体跟物体之间的关系,并将这些关系映射到数学空间。”伍昱解释说。
 
“我们在Facebook开内部会就会一直说要embed all the things,not just word but everything。
 
该项目也一直是Yann LeCun在主推的方向,当时伍昱所在的团队通过大量的探索,真正将这一套通用的embedding方法运用到诸如新闻、内容、广告推荐等Facebook各类产品中,证明比传统的方法更加有效,基于工程实践中的效果进而撰写文章发表,后来也开源了模型算法代码。
 
伍昱(二排右三)和FAIR成员

伍昱认为,这项开源工作的主要意义是通过工程的工作,抽象出更本质的问题,让原本不懂NLP和机器学习的用户都能够真正用上这门技术。
 
“从整体上,Facebook是一个很强的工程团队,文化里强调坦诚沟通,高效合作。每个人都很优秀,有很强的自驱力,大家都想从合作的人身上学习长处,同时也有一个很好的反馈机制,大家都会不断接受同事给自己的反馈意见来提升自己。”
 
在Facebook,伍昱还邂逅了很多“被AI耽误”的艺术家。除了Jason,伍昱身边还有好几位专业水准的小提琴手,正在认真考虑是不是以后要走职业这条路。这些AI研究者当中,有很大比例都在艺术上颇有建树,这似乎已经成为一种神奇的趋势。

2021年伍昱加入智源人工智能研究院,对未来的工作方向有了更新的目标。“我来智源有两大目标,一,希望有前沿的研究成果产出,另外希望对产业产生实际的影响。以前在Facebook,我主要关注的是Facebook的业务,而在智源研究院的层面,希望对更广泛的产业产生影响,主要是AI+X。”


05


女性议题  Q&A

 
1、相比于男性来讲,女性参与AI研究有什么优势?
 
会有比较多女性会关注到AI模型偏见的问题,作为女性从业者,确实能感受到社会上很多事情实际上存在这些偏见。我们希望所做的AI模型能够至少不去夸大这些偏见,理想状态是能够减少这样的偏见。
 
如果大模型本身就存在偏见,有毒的言论等等安全性问题,使用这些模型而产生的决策也会受到影响。举个例子,一位我认识的在银行工作的manager,所使用的贷款预测模型,会提取很多特征决定是否对一个人进行借贷,模型的决策和这个人的性别强相关。结果女性申请者很可能申不到银行贷款,因此模型偏见影响公平性。
 
2、您之前有做过关于偏见的工作吗?
 
我们在2013年左右做过一个工作,叫learning fair representations(https://www.cs.toronto.edu/~toni/Papers/icml-final.pdf),当时作为早期探索fairness的学术团体之一,提出了一种新颖的方法去避免模型在学习过程中学到偏见的信息。后来这项工作也成为了fairness领域很重要的一项工作之一。后来也做过一些针对 NLP 模型中的gender bias 去de-bias的问题。(在生成的模型中去控制 bias)
 
去年我们发表在NeurlPS上的一项关于NLP模型评测的工作Dynaboard,就尝试了去探讨用一种通用的方法去衡量模型中的fairness和robustness。虽然这项工作里的做法有很多可改进的空间,但我们想强调的是希望把fairness当作衡量模型的一个必要指标。
 
3、作为女性科学家,如何面对科研工作中遇到的困境?
 
首先一路走来,我得到过很多女性科学家的引导。我在多伦多大学的女性导师Toniann Pitassi是我在学术路上的引路人。刚才提到的learning fair representation的工作就是在她的指导下完成的。另外一位非常有学术声望的,Cynthia Dwork,她是美国工程院院士、哥德尔奖获得者、Differential Privacy发明者。以及在Facebook AI Research的Leader Joelle Pineau (同时为McGill大学教授),她也十分关注团队中女性研究员的成长。

 Toniann Pitassi(左)和 Cynthia Dwork(右)


能够在早期的科研阶段接触到这些非常顶尖的女性科学家,对我的事业有很大的影响,正是因为有这样优秀的女性研究者在一起,才会去关注偏见这个领域。
 
此外,面对这种工作中碰到的困境,有女性同伴一路的支持、鼓励和帮助,这一点也很重要。我在职业生涯早期就参与了很多为了鼓励女性留在这个行业的活动,比如在加拿大时参加过CRAW的活动,会定期提供场合去讨论女性在从事科研工作的时候,将来不同的阶段会碰到哪些困境,以及由已经经历过这些的女性和科学家去分享他们是如何解决这些事情的,形成了一个互帮互助的团体。在Facebook,COO Sheryl Sandberg也一直大力鼓励女性“向前一步”,她的领导力影响了很多人,激励了很多女性科技工作者。我在Facebook也参与了很多”Lean In”相关的活动。
 
性别问题不仅仅是女性的问题,而是全社会的问题,让男性意识到性别问题的存在、参与到改善性别问题的过程中也是很重要的。有关于性别问题的研究表明,对于女性来讲,拥有mentor和sponsor都对职业生涯有很积极的影响。可能对于大家来讲mentor相对熟悉一些,而sponsor的角色存在的意义是要去鼓励、提拔女性得到更多的机会。
 
在FAIR,我遇到了一位非常优秀的mentor Luke Zettlemoyer (FAIR Seattle site lead, 华盛顿大学教授),他除了给予我NLP研究上的指导、对我的工作给予大量反馈和积极鼓励 ,同时也扮演了一个sponsor的角色,比如给我创造更多的合作机会,让我参与到更多重要的项目中等等。
 
在智源,我也很幸运能加入林咏华老师的团队,林老师曾是IBM中国研究院院长,也是IEEE Women in Engineering北京主席。最后,借此机会,我希望在智源努力建立对女性科学家、工程师友好的团队氛围。
 
4、在国际妇女节这个特殊的日子,您对在校或者刚毕业的从业者、学妹们有什么样的寄语?尤其在学术和职业选择方面有什么样的建议?
 
首先我会发现和男性相比,很多女性科研工作者跟工程师都不够自信,即使有的已经取得了非常了不起的成就,仍然会说我可能不行,所以我希望学妹们能够表现得更加自信一些,要相信自己的能力。
 
另外,在整个东亚的教育体系中,女性往往就是会被培养服从这样的属性,东亚的女性受到的教育也有更会更倾向于服从,乖巧是女生被希望的一些属性,但是在职场环境中,很多权利是要靠自己争取的。另外女生往往从小就被灌输“女生不如男生”、“女生不适合学数学”等偏见思想,所以女生往往需要去修正这些成长过程中有可能受到的偏见影响,更多地相信自己的能力。
 
另外,我希望大家都能够从事自己热爱的工作,更少被一些噪声去影响,同时也应该正视从事该行业可能会遇到的困难,比如客观存在的社会偏见,整个行业的压力,工作节奏等等。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存