网站地图 | 联系我们 | English | 中国科学院
首 页 概 况 机构设置 研究队伍 研究中心 国际交流 院地合作 研究生培养 创新文化 相关研究所
 

 
新闻动态
现在位置:首页>新闻动态>综合新闻
当AI学会性别歧视
发表日期: 2018-12-12
打印本页 字号: 关闭

原题目:当AI学会性别歧视

本文转自微信民众号:果壳(ID:Guokr42)。虎嗅网获授权转载。

“为什么这个图像识此外人工智能(AI),老把男子认成女人?”

赵洁玉发现这个问题的时间,正摩拳擦掌地准备最先自己第一个自力研究。那时,她刚加入弗吉尼亚大学盘算机系攻读人工智能机械学习偏向的博士,她的导师文森特•奥都涅茨(Vicente Ordóñez)扔给了她这个乍看有点啼笑皆非的课题。

面部识别已经不是稀罕事了 | MIT Media Lab

这年头,面部识别实在已经不是很难的事情了,分辨男女更算不上什么世纪难题,准确率应该很高才对。固然,赵洁玉手头的AI使命要稍微难一点儿,不是分辨证件照,而是要识别场景庞大的生涯照。可就连相机里的小小法式都能极为准确地找到画面中的人脸而自动对焦,多点儿配景对AI来说能算什么难题呢?

然而正是这些配景,以一种意料之外情理之中的方式扭曲了AI的“认知”。赵洁玉发现,男子被认成女人的图片有一些配合点——都是站在厨房里,或者在做家务。

她很如意识到,这并不是法式bug,也不是识别算法或者特征提取出了偏差,而是人工智能总把女人和某些特定的元素联系在一起,在下达判断时被这些元素带跑了。换句话说,这是一个会“性别歧视”的AI:它以为站在厨房里的就“该”是女人。

把男子认成女人的 AI | 参考文献1

这样的歧视是怎么发生的呢?也很简朴。若是你发展在一个“男主外、女主内”的社会,那么你便会自然地以为女人就该筹划家务。AI也一样,不外它“熟悉天下”的途径也是歧视的泉源,是它的“教学资料”——用于训练人工智能举行图像识此外数据库。关于性此外私见不仅在数据库里普遍存在,而且还会被人工智能所放大。

为什么会泛起这种情形?怎么解决?赵洁玉和团队围绕着这两个问题写就的论文《男子也爱购物:使用语料库级此外限制法降低性别误差》在自然语言处置惩罚2017年的年会上获得了最佳长论文奖,整小我私家工智能领域也最先逐渐意识到这个问题。

数据库的误差从何而来?

赵洁玉和实验室团队选取了两个具有代表性的图像训练数据集,一个是华盛顿大学开发的ImSitu,一个是微软和Facebook等大公司支持的MSCOCO,每个数据集内里都有凌驾10万张图片。他们发现,一些标签和性别绑定的水平十分突出,好比站在厨房里、做家务、照看小孩子的就被以为是女性,开会、办公、从事体育运动的则是男性。单个图片看起来都很正常,然而大量的此类照片累积成了肉眼可见的私见。有凌驾45%的动词和37%的名词,会展现凌驾2:1的性别比例误差。

性别歧视也仅仅只是私见其中的一个方面。一张来自印度海得拉巴的印式婚纱,在图像识此外人工智能眼里,成了欧洲中世纪的锁子甲。为什么?由于AI的观点里婚纱是白色的西式婚纱,而并不“熟悉”第三天下的文化。

左边为海得拉巴婚纱,右边为锁子甲 | Pinterest

这是谷歌大脑实验室成员、斯坦福大学的史蕾雅•珊卡尔(Shreya Shankar)的研究工具——现在最着名的图像识别训练数据集,拥有凌驾120万张图片的谷歌ImageNet。她发现,用ImageNet训练出来的人工智能,同样是识别带有“婚纱”元素的图像,来自美国和澳大利亚的图像准确率和置信度很是高——绝大多数图片都能获得机械自信且准确的谜底;然而来自巴基斯坦和埃塞俄比亚的图片则没有这种待遇。在识别美国和第三天下的图像内容的时间,人工智能总是“选择性失明”。

珊卡尔用所在标签为这些数据做了分类,发现ImageNet的图像,有45%来自美国,凌驾60%来自最主要的6个西欧国家。而中国和印度加起来有全球三分之一的生齿,却只有数据集里戋戋3%的数据量。在这样的数据集训练下的AI,在面临来自“第三天下”的使命时,就好像进了大观园的刘姥姥,眼前全是稀奇事儿。

对于各地域的图像识别置信度的漫衍,越往右越高。埃塞尔比亚和巴基斯坦的图片置信度相对更差 | 参考文献2

数据集的误差,在形成的历程中就已经在积累了。

数据集的目的,是训练机械举行图像识别——例如ImageNet 的图像就围绕着1000多个种别睁开,每一张图片都有一个种别标签。可是为每个标签选择的图像,却会在无意中反映互联网的刻板印象。赵洁玉告诉我,大部门数据库的图片都泉源于搜索引擎,然后再通过人工给这些图片加上标签,标注内里都有什么(好比一个香蕉的图片,那么标签内里就会有水果、食物、香蕉等文字)。这样做的缘故原由很好明白:法式无法直接感知到现实事物,只能“看”到现成的数字化图像,而互联网搜索引擎应该是最不带私见、最老实的图像泉源了吧?

人工给数据库的图片打上标签 | Pixabay

但搜索引擎体现的“老实”却让人恐慌——好比,在谷歌上搜“black girl”,第一屏有绝大部门都是色情图(厥后谷歌把这个问题修复了);哈佛大学的盘算机系教授拉谭雅•斯威尼(Latanya Sweeney)发现,在搜索引擎上搜典型的黑人名字,搜索引擎会有凌驾80%的概率在搜索建议里提供“逮捕”、“犯罪”等词汇,而没有种族特征的却只有不到30%。归根结底,搜索引擎反映的并不是现实,而是它的使用者对现实的明白。这些关于种族与性此外明白不行制止地天生就有值得商讨的内容——你以为你输入的是“黑人”,但得出的内容却是“黑人罪犯”。

“数学上没有所谓‘公正’的观点,”英国巴斯大学盘算机系教授乔安娜•布莱森(Joanna Bryson)说,“私见,只是机械从数据中拾取的纪律(regularity)而已。”在人工智能和机械学习的领域里,“私见”并不是一个带有价值判断的词汇。然而,在涉及到现实应用的领域,情形就纷歧样了。现在的机械,固然不具备体会情绪或者居心施加私见的能力,只是老实地反映了数据库以致社会中真实存在的私见,而这些反映有时间并不是我们想要的。

搜索引擎老实地反映私见 | Pixabay

更要害的问题在于,现有的机械训练方式,很可能会放大这些私见和歧视。

机械怎样放大数据库的私见?

你可能有这样的履历:刚在购物网站上购置了5kg的洗衣液,推荐算法就在“你可能喜欢”的侧栏里,给你推荐8个品牌25种其它洗衣液——“这是要我开洗衣店”?

大规模商业应用的推荐算法不够“智能”也许有其心事,但哪怕学术界顶尖的手艺也难逃类似的坑:算法似乎太过在意你的输入,把原始数据太认真了。若是数据质量很高,那自然不是问题;但现在原始数据里已经有了私见,算法就会进一步把它放大。

赵洁玉团队用MSCOCO和ImSitu数据集训练的人工智能,在对一样平常的图片举行展望的时间,会体现出比数据集自己更大的误差——好比,在imSitu数据集中,“下厨”和女性联系起来的频率为66%,男性有33%;然而,被这个数据集训练过的人工智能,展望下厨和女性联系起来的比率被放大到了84%,男性则只有戋戋16%。

AI会将下厨和女性的联系放大 | Pixabay

为什么呢?她在研究中使用的算法模子,一方面直接通过识别图像的特征,提取图像里的元素标签,另一方面会凭据各个标签之间的联系来判断事实哪个元素泛起的概率最大,这也是大信息量的图像识别中十分常用的思绪。而问题就在于,若是要通过现有的联系来举行识别,那么机械可能会在训练中将现有的联系强调,从而在不那么确定的情形下,给出一个更可能靠近“准确谜底”的效果。

赵洁玉给我打了个例如:“当算法只通过图像里的特征来判断,给出的展望是有50%的可能图片内里是男性,但也有50%可能是女性;但在训练它的数据库中,有90%的图片都将女性和厨房联系在一起。那么综合图像特征、联系两方面信息之后,机械便会得出结论,说图片里是女性。”

AI会将现有的联系强调丨Pixabay

机械容易犯的另外一个错是将大部门数据的特征当做一样平常的特征来处置惩罚——上文中用ImageNet训练出来的数据库就很可能犯“美国加欧洲就是全天下”的错误。这会对数据中的少数很是倒霉。若是让AI判断一小我私家是男子照旧女人,而用于训练这个AI的数据库里有98%的男子,只有2%的女人。经由训练的AI纵然可以识别所有男子、完全不管那2%的女人,那也能有98%的准确度。可是那2%的女人,对机械就等同于不存在了。

而若是不管掉臂现实情形,只笃志训练的话,能将现有数据库的误差夸张到什么水平呢?来自MIT和卡耐基梅隆大学的两个学者训练了一个AI,它能够通过差别数据库的气势派头和内容,识别来自差别数据库的图片,好比Caltech101里的汽车都是横着的,MSRC里经常是宽阔的草坪上摆着一个物体。这意味着,若一个数据库内里泛起了哪怕一点点的私见,也会被算法忠实地反映出来,强调到一样平常情形中——用Caltech101训练出来的AI,一定以为天下上绝大部门的车都是横着的才“正常”。

差别数据库里的车的“典型”样子 | 参考文献3

这在手艺领域被称为“过拟合”,很大水平上和人工智能的训练方式有关。MIT和卡耐基梅隆的研究者以为,现在的图像识别开发者,往往会陷入盲目追求“准确度”的陷阱里去。训练出来的模子,在某一个数据库上的准确度可以到达很是高,从而给人“我的AI特牛逼”的错觉,然而在现实中难免会吃瘪。这就好比我原来是个脸盲,又恰恰是日本大型偶像组合AKB48的忠实粉丝,内里的几百个妹子我都熟悉;可是把我放到一样平常人群中,我又两眼一抹黑,只好对着刚熟悉不久的人露出生疏的微笑。恒久泡在年轻妹子里,对暮年人和男性的识别能力反而降低了。

诚然,在AI训练的历程中,数据可以说是最主要的一环。但数据不是万能的,对数据的洞察同样要害。“从大量的数据中挖掘并洞察人性”——这是赵洁玉的导师奥都涅茨的兴趣所在。只有这样,才气从基础上提高机械在人类社会中事情的能力。

人或许是机械最大的局限

社会的信息化、互联网的飞速生长给我们带来了海量的数据,你想获得的、想不到的,都被机械清清晰楚地掌握着。在你打开社交网站的时间,机械就把合适的广告推到了你眼前,只由于你前一天用谷歌搜索了这个产物的信息;上传照片到Facebook,你和你的朋侪都市被自动打上标签,只由于面部识别算法早已悄悄扫描过了有你们的每一幅照片。

互联网甚至已经能识别你的面貌 | Pixabay

然而,对于数据的挖掘和明白,始终有着林林总总的局限。机械的错误、歧视和私见也来自“缺根筋”的人——手艺职员拥有了大量的数据,用机械强盛的运算能力调教出了精妙的算法,但却对数据、以致数据背后的社会现实缺乏思量。

珊卡尔举了一个让人啼笑皆非的例子——她所在的斯坦福盘算机系的一个教授开发了一个声称能够“通过面部特征识别同性恋”的人工智能。新闻传出,社会上一片哗然。且岂论这个算法若是放入现实中,会为歧视和私见提供怎样的利便;要害是这小我私家工智能在现实中真的建立吗?“这位教授使用的数据,都来自在观察里公然出柜的人,另有大量的同性恋基础没有公然自己的性向。”珊卡尔在一篇博文中写道,“若是想要辨识一小我私家是否真的是生物意义上的同性恋,这个算法没有任何意义。”

另一个例子是,一个医疗团队使用AI辅助诊断病人的血液样本(这可以说是现在人工智能最有开发潜力的偏向之一),但却发现AI诊断出阳性效果的数目大大超出了预料。岂非实在人人都有病?效果却令人啼笑皆非:数据库使用康健自愿者的血液作为对照,但这些自愿者险些都是年轻的大学生,而医院里的病人年事显着偏大。最后,人工智能把暮年血当成了有病的血。这样的错误人类也会犯,但只需上几门医学统计学的课程就可纠正;教会AI明白这种误差,却好像遥遥无期。

怎样教会AI分辨暮年血和有病的血 | Pixabay

这还仅仅是学术领域的问题,现实中关于数据库的棘手事儿更多。“在机械学习研究的领域里,数据库照旧相对比力‘洁净’的,”一名在人工智能领域供职的朋侪对我说,“种种类型的数据都比力理想化,好比图片的标签、图片的分类等等,都相对规范。然而在商业领域收罗到的数据,许多都很是潦草,训练出来的算法也有很大问题。”商业公司要么购置昂贵的数据库,要么就花上大量的人力手动打标签,从这个角度上讲,人工智能的背后,实在一点也不智能。“垃圾进,垃圾出”(Garbage in,Garbage out),是业界对于糟烂数据库训练出糟烂智能的吐槽——许多时间,甚至是自嘲。

这些进入商业应用的人工智能使用了什么样的数据库?数据库中的私见是否会影响人工智能的判断?数据库怎样网络数据,怎样标注已有的私见,业界有没有尺度?社会对此缺乏响应的考察,而机械学习自己也存在着大量不透明的境况,特殊是在神经网络“无监视学习”的生长趋势下,连开发者自己都不知道自己的 AI 事实在干什么。

我们不知道一个举行简历筛选的智能,会不会将女性的简历扔进垃圾堆;也不知道给一小我私家的借贷信用打分的人工智能,是否会将出生地作为黑历史纳入思量。作为一个希望在盘算机领域生长的女性,赵洁玉也会担忧这样的问题。“若是你用历年盘算机系的入学数据训练一小我私家工智能,”她说,“那么机械一定会得出‘女性成不了优异的盘算机工程师’的效果,这对女工程师来说很是不公正。”

AI的私见会不会导致现实的性别歧视 | Maxpixel

而少数族裔、少数整体所面临的尴尬,就犹如珊卡尔的研究中的海得拉巴婚纱一样——被主流数据库训练出来的人工智能,对少数群体的情形往往两眼一抹黑。

现实中,大量的智能应用都降生自湾区——这是一个经济极其蓬勃的都会带,开发者大部门是白人中青年男性,而这个小小的地方,正决议着服务整个天下的人工智能的数据和算法。海内北上广深杭的互联网从业者,也难免对三四线都会和墟落充满了轻视,一厢情愿地信赖着大都会的社会纪律。而效果却是,那些没有话语权的群体和地域,可能会在未来越发严重地被边缘化,这并不是开放、同等的互联网最初所期冀的效果。

给机械一个公正的未来?

“没有事实上的手艺中立。对机械来说,中立的就是占统治职位的。”剑桥大学未来研究所教授鲁恩•奈如普(Rune Nyrup)如是说。人工智能并不能从数据中习得什么是公正、什么是美德,也不懂什么是歧视、什么是丑陋。说到底,我们现在的人工智能,还远远没到明白“抽象”的田地。

被人类盲目追捧的机械,似乎不会“犯错”——这是由于机械是稳固的,只会泛起“异常”。但这种异常,实在就是一直顽强一直地犯错。怎样制止呢?这也跟人类的教育有相似之处——提供更好的课本,或者先生需要格外注重教学方式。毫无疑问,我们需要更好的,尽可能淘汰私见的数据库;然而获得面面俱到、没有误差的数据库很是难题而且成本高昂。那么训练人工智能的手艺职员,能够对可能的误差有所熟悉,并用手艺方式去调整、弥合这个误差,也是十分须要的。

对机械的训练与人类的教育相似,需要好的课本或格外注重的先生 | Pixabay

赵洁玉正在做的研究,就是怎样调偏。她设计的算法,会权衡数据库的性别元素和私见状态,并用它来纠正识此外展望效果。在这个纠偏算法的资助下,机械在性别方面的识别私见淘汰了40%以上。

而在纠偏的研究中,赵洁玉也逐步体会了一个手艺职员与社会公正之间的联系。她自认并不是那类努力在社交网络上到场政治议题的年轻人,但却会更多地在手艺领域注重到数据中的“少数”,思索他们是否获得了数据和算法的一视同仁。“你的算法体现好,是不是由于优势群体强盛?弱势群体在你的算法中被思量到了吗?”赵洁玉说。

而从基础上说,那些被机械无意拾取的私见,都以性别刻板印象的形式,恒久存在于我们周围,需要我们保持审阅的态度。作为一个从事人工智能研究的女性,纵然已经走入了领域最顶尖的学府深造,却依旧碰面对别人惊奇的眼光。“经常会听到别人说,‘女孩子学CS(Computer Science,盘算机科学),一定很辛劳吧’。”赵洁玉对我说。这些无心的、甚至是赞扬的话,却让自己听了以为差池劲,“明显各人都是一样的啊。”

别忘了,第一位法式员也是女性(固然,电脑是艺术加工的) | MASHABLE COMPOSITE ALFRED EDWARD CHALON/SCIENCE & SOCIETY PICTURE LIBRARY

简直,我们需要不厌其烦告诉机械的或许也需要不厌其烦地告诉我们自己。

参考文献:

1.Zhao, Jieyu, et al. "Men also like shopping: Reducing gender bias amplification using corpus-level constraints." arXiv preprint arXiv:1707.09457 (2017).

2.Shankar, Shreya, et al. "No Classification without Representation: Assessing Geodiversity Issues in Open Data Sets for the Developing World." stat 1050 (2017): 22.

3.Torralba, Antonio, and Alexei A. Efros. "Unbiased look at dataset bias." Computer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference on. IEEE, 2011.

4.Barocas, Solon, and Andrew D. Selbst. "Big data's disparate impact." Cal. L. Rev. 104 (2016):671.

5.Sweeney, Latanya. "Discrimination in Online Ad Delivery." Communications of the ACM 56.5(2013): 44-54.

6.Barocas, Solon, and Andrew D. Selbst. "Big data's disparate impact." Cal. L. Rev. 104 (2016):671.

7.https://www.newyorker.com/magazine/2017/04/03/ai-versus-md

8.https://thewalrus.ca/how-we-made-ai-as-racist-and-sexist-as-humans/

本文转自微信民众号:果壳(ID:Guokr42)。

责任编辑:

   评 论
版权所有:中国科学院北京生命科学研究院
地址:中国.北京市朝阳区北辰西路1号院5号 邮编:100101
© 鄂ICP备166715号-6