本文共 1694 字,大约阅读时间需要 5 分钟。
该论文是ACL2017的一篇影响力较大的论文:
抽取式文本摘要实现简单,所有内容都是从原文中抽取,但想要高质量的,足够抽象的摘要,则需要进行生成式文本摘要。
神经序列到序列模型是生成式文本摘要的一种可行的方法。然而,这些模型有两个缺点:重现事实细节不准确,重复生成。在本文工作中,作者提出了一个新的架构,以两种正交的方式增强标准的seq2seq的注意力模型。首先,作者使用一个混合的pointer-generator网络。一边能从源文本复制单词,有助于准确地复制信息,同时可以通过生成器产生新单词。其次,作者使用覆盖机制来跟踪已经总结的内容防止重复生成。
保持一个覆盖向量 c t c_t ct,它是之前所有的decoder时间步上的注意力分布的总和(区分于上下文向量 h t ∗ h^*_t ht∗):
直观地说, c t c_t ct是源文档单词的非标准化分布,它表示这些单词迄今为止从注意力机制获得的覆盖程度。注意, c 0 c_0 c0是一个零向量,因为在第一个时间步中,没有涉及任何源文档。 将覆盖向量 c t c_t ct作为注意机制的额外输入,将式(1)变为: 之前的决策蕴含在 c t c_t ct中,注意力机制选择下一个关注点时,更容易避免重复关注于同一个位置,从而避免产生重复的文本。数据集使用CNN/Daily Mail,实验结果如下:
上半部分为生成式,下半部分为抽取式。显然本文中的方法,pointer-generator+coverage与当时的几种生成式方法对比有着明显优势。但是lead-3方法虽然简单,由于文章往往在开头就点明主旨,有着很高的表现,当时的一众模型在ROUGE-1的指标上都不能将其超越。由于本文方法是生成式的,考量该方法的抽象程度,下图表示原文中不存在的的n元组的比例。
可见本文方法相对于参考摘要和基线模型,产生新的n元组并不频繁,属于较低的水平,在35%地情况下,本文模型会复制原文中的句子,这与参考摘要的1.3%还有较大差距。下图为两个摘要示例。
综上,该文的贡献主要在于:转载地址:http://nemgi.baihongyu.com/