基于标注的实体和关系的联合抽取研究文献综述
2020-04-14 22:19:02
进入21世纪以来,随着科学技术不断的发展,有效的信息挖掘已经成为了一个重要的课题,在信息的提取中,联合提取实体和关系是信息提取中的一项重要任务。为了解决这个问题,我们首先提出一种新颖的标签方案,可以将联合提取任务转换为标记问题。 然后,根据我们的标签计划,我们研究不同的端到端模型直接提取实体及其关系,不单独的识别实力和他们的关系。
实体和关系的联合提取是检测实体提及并同时从非结构化文本中识别它们的语义关系,如图1所示。 与开放信息提取(Open IE)(Banko et al.,2007)不同,其关系词是从给定句子中提取的,在该任务中,关系词是从可能不出现在给定句子中的预定义关系集中提取的。知识库的知识提取和自动构建是一个重要问题。
传统方法以流水线方式处理该任务,即首先提取实体(Nadeau and Sekine,2007),然后识别它们的关系(Rink,2010)。 这个分离的框架使任务易于处理,每个组件都可以更灵活。 但它忽略了这两个子任务之间的相关性,每个子任务都是一个独立的模型。实体识别的结果可能会影响关系分类的表现并导致错误的传递(Li and Ji, 2014).
图1:任务的标准示例句子。 “Country-President”是预定义关系集中的关系。
最近,基于LSTM的端到端模型(Hochreiter and Schmidhuber,1997)已成功应用于各种标记任务:命名实体识别(Lample et al.,2016),CCGSupertagging(Vaswani et al.,2016), Chunking(Zhai et al.,2017)et al。 LSTM能够学习长期依赖性,这有利于序列建模任务。因此,基于我们的标记方案,我们研究了不同类型的基于LSTM的端到端模型,以共同提取实体和关系。 我们还通过添加偏差损失来修改解码方法,使其更适合我们的特殊标签。
我们提出的方法是监督学习算法。然而,实际上,手动标记具有大量实体和关系的训练集的过程太昂贵且容易出错。因此,我们对远程监督方法(Ren et al.,2017)生成的公共数据集1进行了实验,以验证我们的方法。实验结果表明,我们的标记方案在这项任务中是有效的。此外,我们的端到端模型可以在公共数据集上实现最佳结果。
通过本文的研究,我们提出了一种新的标记方案,用于联合提取实体和关系,可以很容易地将提取问题转化为标记任务。而且基于我们的标记方案,我们研究了不同类型的端到端模型来解决问题。基于标记的方法优于大多数现有的流水线和联合学习方法。此外,我们还开发了具有偏差损失函数的端到端模型,以适应新颖的标签。它可以增强相关实体之间的关联。