Key points are not available for this paper at this time.
机器学习的盲目应用存在放大数据中偏见的风险。词嵌入作为一种将文本数据表示为向量的流行框架,已被广泛应用于许多机器学习和自然语言处理任务中,也面临这种风险。我们的研究表明,即使是在Google News文章上训练的词嵌入,也会表现出令人不安的女性/男性性别刻板印象。这引发了担忧,因为正如我们所描述的,其广泛使用往往会放大这些偏见。在几何层面上,性别偏见首先被证明可以通过词嵌入中的一个方向来捕捉。其次,性别中立词可以在线性空间中与性别定义词区分开。基于这些特性,我们提出了一种方法修改词嵌入,去除性别刻板印象,例如消除“receptionist”和女性的关联,同时保持“queen”和女性的预期关联。我们定义了衡量词嵌入中直接和间接性别偏见的指标,并开发了“去偏见”算法。通过众包评估和标准基准测试,我们实验证明这些算法显著降低了词嵌入中的性别偏见,同时保留了其有用性质,如相关概念聚类能力和类比推理能力。经处理的词嵌入可用于应用中,而不会放大性别偏见。
Building similarity graph...
Analyzing shared references across papers
Loading...
Tolga Bolukbasi
Kai-Wei Chang
James Zou
Boston University
Microsoft (United States)
Microsoft Research New England (United States)
Building similarity graph...
Analyzing shared references across papers
Loading...
Bolukbasi 等人(周四)研究了这个问题。
www.synapsesocial.com/papers/6a08c87fd8e4ee01e066c1f9 — DOI: https://doi.org/10.48550/arxiv.1607.06520
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: