前瞻研究和落地应用兼顾,ACL 2020百度11篇被收录论文解读

2020-04-22 05:06:54 福州科技 155

前瞻研究和落地应用兼顾,ACL 2020百度11篇被收录论文解读

2020-04-21 17:47 百度

近日,国际自然语言处理领域顶级学术会议“国际计算语言学协会年会”(ACL 2020)公布了今年大会的论文录用结果。根据此前官方公布的数据,本届大会共收到 3429 篇投稿论文,投稿数量创下新高。其中,百度共有11篇论文被大会收录,再次展现出在自然语言处理领域的超高水准。

国际计算语言学协会(ACL,The Association for Computational Linguistics)是自然语言处理领域影响力最大、最具活力的国际学术组织之一,百度CTO王海峰曾任2013年 ACL 主席(President),是ACL历史上首位华人主席。

除了在国际AI学界的影响力外,ACL无论是审稿规范还是审稿质量,都是当今AI领域国际顶级会议中公认的翘楚。研究论文能够被其录用,不仅意味着研究成果得到了国际学术界的认可,也证明了研究本身在在实验严谨性、思路创新性等方面的实力。而此次ACL 2020的审稿周期,从去年12月一直持续到今年4月,相比往年几乎增加了一倍。虽然大会官方尚未公布今年整体论文录用率,但参照往年的评审过程和录用率,论文被其录取的难度依旧不会低。

百度的自然语言处理技术,在发展及应用上始终保持领先,一直被视为自然语言处理研究界的“第一梯队”。今年除了11篇论文被录用外,大会期间百度还将联合Google、Facebook、UPenn、清华大学等海内外顶尖企业及高校,共同举办首届同声传译研讨会(The 1st Workshop on Automatic Simultaneous Translation)。由于近期疫情影响,原定于今年7月5日至10日在美国西雅图举行的大会已改为线上举办,而上述同声传译研讨会也将改为在线上与专家学者们探讨。

本届大会百度被收录的11篇论文,覆盖了对话与交互系统、情感分析/预训练表示学习、NLP 文本生成与摘要、机器翻译/同声翻译、知识推理、AI辅助临床诊断等诸多自然语言处理界的前沿研究方向,提出了包括情感知识增强的语言模型预训练方法、基于图表示的多文档生成式摘要方法GraphSum等诸多新算法、新模型、新方法,不仅极大提升了相关领域的研究水平,也将推动人机交互、机器翻译、智慧医疗等场景的技术落地应用。

以下为ACL 2020百度被收录的11篇论文概览。

一、对话与交互系统

1、Conversational Graph Grounded Policy Learning for Open-Domain Conversation Generation

我们提出用图的形式捕捉对话转移规律作为先验信息,用于辅助开放域多轮对话策略学习。基于图,我们设计策略学习模型指导更加连贯和可控的多轮对话生成。首先,我们从对话语料库中构造一个对话图(CG),其中顶点表示“what to say”和“how to say”,边表示对话当前句与其回复句之间的自然转换。然后,我们提出了一个基于CG的策略学习框架,该框架通过图形遍历进行对话流规划,学习在每轮对话时从CG中识别出哪个顶点和如何从该顶点来指导回复生成。我们可以有效地利用CG来促进对话策略学习,具体而言:(1)可以基于它设计更有效的长期奖励;(2)它提供高质量的候选操作;(3)它让我们对策略有更多的控制。我们在两个基准语料库上进行了实验,结果证明了本文所提框架的有效性。

2、PLATO: Pre-trained Dialogue Generation Model with Discrete Latent Variable

研发开放领域(Open-Domain)的对话机器人,使得它能用自然语言与人自由地交流,一直是自然语言处理领域的终极目标之一。对话系统的挑战非常多,其中有两点非常重要,一是大规模开放域多轮对话数据匮乏;二是对话中涉及常识、领域知识和上下文,一个对话的上文(Context),往往可以对应多个不同回复(Response)的方向。PLATO首次提出将离散的隐变量结合Transformer结构,应用到通用对话领域。通过引入离散隐变量,可以对上文与回复之间的“一对多”关系进行有效建模。同时,通过利用大规模的与人人对话类似的语料,包括Reddit和Twitter,进行了生成模型的预训练,后续在有限的人人对话语料上进行微调,即可以取得高质量的生成效果。PLATO可以灵活支持多种对话,包括闲聊、知识聊天、对话问答等等。而文章最终公布的在三个公开对话数据集上的评测,PLATO都取得了新的最优效果。