解决“女性语音的诸多问题”,世界各地受挫的女士看来得为此击节相庆了。[26]他说,女性需要的是“长期培训”——只要女人们“愿意”接受培训就行。沙尔克感叹道,但她们根本不想。就像在孟加拉国那些固执己见、总是买错炉子的女人一样,买车的女人也总是不合理地期望软件开发人员设计出一款适合她们的语音识别产品,但很明显,需要解决的问题是女人自己。为什么女人不能更像男人呢?
蕾切尔·塔特曼驳斥了这种认为问题在于女性的声音而不在于技术无法识别女性声音的说法:研究发现,女性具有“明显更高的语音可辨度”,[27]这可能是因为女性发出的元音往往较长,[28]语速比男性稍慢。[29]与此同时,男性“说话不流畅的概率更高,使用的单词持续时间略短,而且使用的替代(‘含混’)发音更多”。[30]考虑到所有这些因素,语音识别技术应该更容易识别女性而不是男性的声音——事实上,塔特曼写道,她已经“利用女性的语音数据对分类器进行了训练,而且谢天谢地,效果很好”。
当然,问题不在于女性的声音,而在于我们的老朋友——性别数据缺口。语音识别技术是在名为语料库的大型语音记录数据库上进行训练的。这些语料库主要收录了男性声音的录音。无论如何,就我们所知:大多数语料库中的声音素材都未按性别分类,当然,这本身就是一个数据缺口。[31]当塔特曼研究语音语料库的性别比例时,只有TIMIT(“语言数据联盟中最受欢迎的语音语料库”)一家提供了按性别分类的数据。当中69%是男性。但与这些发现所暗示的相反,事实上有可能找到女性说话的录音:从英国国家语料库(BNC)[32]网站上的数据来看,该语料库是性别平衡的。[33]
不光是语音语料库会催生偏向男性的算法。文本语料库(由小说、报纸文章、法律教科书等各种文本组成)被用来训练翻译软件、简历扫描软件和网络搜索算法,它们的数据也充斥着性别数据缺口。我搜索了英国国家语料库[34](收录了20世纪晚期大量文本中的1亿个单词),发现女性代词的出现率始终只有男性代词的一半左右。[35]尽管当代美国英语语料库有5.2亿个词,收录了近至2015年的文本,但男女代词的比例也是2比1。[36]依据这些满是缺口的语料库来训练的算法,就给人留下这样一种印象:这个世界实际上是由男性主宰的。
图像数据集看来也存在性别数据缺口的问题:2017年,一项对两组常用数据集的分析发现,男性图像的数量远超女性图像;这两