July 21, 2016Open Access

男人是程序员，女人是家庭主妇？去偏见词嵌入技术

Key Points

Key points are not available for this paper at this time.

Abstract

机器学习的盲目应用存在放大数据中偏见的风险。词嵌入作为一种将文本数据表示为向量的流行框架，已被广泛应用于许多机器学习和自然语言处理任务中，也面临这种风险。我们的研究表明，即使是在Google News文章上训练的词嵌入，也会表现出令人不安的女性/男性性别刻板印象。这引发了担忧，因为正如我们所描述的，其广泛使用往往会放大这些偏见。在几何层面上，性别偏见首先被证明可以通过词嵌入中的一个方向来捕捉。其次，性别中立词可以在线性空间中与性别定义词区分开。基于这些特性，我们提出了一种方法修改词嵌入，去除性别刻板印象，例如消除“receptionist”和女性的关联，同时保持“queen”和女性的预期关联。我们定义了衡量词嵌入中直接和间接性别偏见的指标，并开发了“去偏见”算法。通过众包评估和标准基准测试，我们实验证明这些算法显著降低了词嵌入中的性别偏见，同时保留了其有用性质，如相关概念聚类能力和类比推理能力。经处理的词嵌入可用于应用中，而不会放大性别偏见。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Tolga Bolukbasi

Kai-Wei Chang

James Zou

Actions

Institutions

Boston University

Microsoft (United States)

Microsoft Research New England (United States)

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

男人是程序员，女人是家庭主妇？去偏见词嵌入技术

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider