Abstract
大型预训练语言模型(PLM)变得越来越普遍,识别文本中的各种类型的偏差已成为焦点。
先前的研究表明现有基准数据集存在重大的可靠性问题。然而,注释可靠的数据集需要准确理解刻板印象如何在文本中体现的细微差别。
[结构刻板印象]:这篇文章的作者注释了一个针对“刻板印象检测(Stereotype Detection)”的重点评估集,通过解构文本中刻板印象表现的各种方式来解决这些缺陷。
[多任务学习提高性能]:此外,作者提出了一个多任务模型,该模型利用大量数据丰富的邻近任务,如仇恨言论检测、攻击性语言检测、厌女检测等,以提高“刻板印象检测”的经验性能。
[强化学习选可靠的数据]:然后,作者提出了一个强化学习代理,它通过学习从相邻任务中识别对目标任务最有帮助的训练示例来指导多任务学习模型。
Introduction
【why solve this problem?】:近年来大型预训练语言模型(PLM)变得越来越普遍。训练PLM的无标签数据来自于网上,如:维基百科、社交论坛、小说……这些无标签数据有些是带有偏见的(仇恨、种族歧视、性别歧视、刻板印象等),学习有偏见的数据也许会带来有偏见的输出,随之传播下去。
【how to solve?】:
- 识别和消除已经学习好的PLM的偏见
- 对PLM的输出的偏见信息进行识别和管理
【刻板印象类型family & 刻板印象的分类】:
仇恨言论、厌女症、刻板印象、虐待、威胁、侮辱等
对于刻板印象来说也有些分类:
带有攻击性或不带
带有积极情绪或消极
【卖点1】:
- 已经有工作证明了流行的两个刻板印象识别数据集具有以下几个问题:存在无害的刻板印象样本、反刻板印象样本、非自然的文字等缺点。
- 这些数据集还缺乏对文本中刻板印象表现的细微差别的充分覆盖
- 这使得它们不太适合训练有效的鉴别分类器。因此,作者致力于创建细粒度的评估数据集
【卖点2】:
- 尽管刻板印象在许多方面不同于其他类型的攻击性语言,但它们也在很大程度上重叠。
- 作者为这些所有相邻任务提出了一个多任务学习框架。
【卖点3】:
- 由于任务之间的重叠只是部分的,因此我们提出了一种强化学习代理,它通过从相邻任务数据集中选择有助于改进目标任务的有意义的数据示例来学习指导多任务学习模型
【卖点4】:
- 最后,作者通过一系列消融研究更仔细地观察强化学习代理的学习过程。