Abstract & Introduction
作者收集发布并分析了一个新的幽默数据集——Humicroedit
- 样本结构:(常规英文标题, 替换编辑词, 幽默分数)
- 5名评委给15095条编辑过的标题打分,分数范围是0~3
作者表示这种简单的单词替换使得标题变幽默的应用,是分析幽默产生原因很好的过程,在这过程中也能得到经典幽默理论的支撑
最后作者还开发了一个基线分类器来预测编辑后的标题是否有趣。
计算幽默难,尽管自动幽默识别(automatic humor recognition)上有进展,但计算化幽默生成(computerized humor generation)的进展微小。这是由于幽默涉及到世界级的深度知识、常识和从多层级上感知实体和对象之间关系的能力。(这TM换做是人类也无法游刃有余感受和表达幽默😄)
两部构建Humicroedit。首先,我们从发布在Reddit(Reddit.com)上的新闻媒体收集原始新闻标题。然后,我们让来自亚马逊Mechanical Turk(mturk.com)的专家注释员(i)通过对这些标题进行小编辑来生成幽默,并(ii)判断这些编辑中的幽默。
%20Hair%20Dataset%20and%20Analysis%20of%20Creative%20Text%20Editing%20for%20Humorous%20Headlines/fig1.png)
- 这个Humicroedit数据集能干什么呢?
- 了解幽默产生的原因
- 做幽默识别
- 对多组编辑后的标题做幽默排序
- 做幽默生成
- 幽默推荐