跨领域命名实体识别技术研究与实现文献综述

2020-04-14 17:30:39

1．目的及意义

命名实体识别（Named Entity Recognition,NRE）作为自然语言处理的基础工作，其主要任务是识别文本中的人名、地名、组织机构名等专有名词和有意义的时间、日期等短语。NER作为信息抽取中重要的组成部分，其实别结果对于后续的关系抽取、语义角色标注、机器翻译等任务有很大的影响，能否正确识别出命名实体决定着信息的抽取率。命名实体识别任务通常和领域语料特征密切相关，这导致系统的泛化性较差。对于某些特定领域数据，探究如何在无标注或少量标注数据前提下识别命名实体，是自然语言处理任务的重要问题。毕业设计的目的就是掌握现有命名实体识别模型的建模理论、优化策略、训练方法和评价方法，提出具有一定创新性的跨领域命名实体识别方法，实现跨领域的命名实体识别系统，完成训练及效果评价。

命名实体识别当前并不是一个大热的研究课题，因为学术界部分认为这是一个已经解决了的问题，但是也有学者认为这个问题还没有得到很好地解决，原因主要有：命名实体识别只是在有限的文本类型（主要是新闻语料中）和实体类别（主要是人名、地名）中取得了效果；与其他信息检索领域相比，实体命名评测预料较小，容易产生过拟合；命名实体识别更侧重高召回率，但在信息检索领域，高准确率更重要；通用的识别多种类型的命名实体的系统性很差。

同时，中文的命名实体识别与英文的相比，挑战更大，目前未解决的难题更多。英语中的命名实体具有比较明显的形式标志，即实体中的每个词的第一个字母要大写，所以实体边界识别相对容易，任务的重点是确定实体的类别。和英语相比，汉语命名实体识别任务更加复杂，而且相对于实体类别标注子任务，实体边界的识别更加困难。现代汉语日新月异的发展给命名实体识别也带来了新的困难。

NER任务通常被当做序列标注任务，其中主要模型分为传统的统计机器学习模型和神经网络模型。常见的NER统计模型有HMM（隐马尔科夫模型）和CRF（条件随机场）等浅层模型，其中CRF模型效果不错，因此应用广泛。

近年来，深度学习在自然语言处理领域中取得重大的突破。与传统机器学习方法相比较，神经网络模型在命名实体识别任务中取得更好的结果。

{title}

2. 研究的基本内容与方案

{title}

2.1设计的基本内容：结合特征系统、机器学习和条件随机场等知识，设计一个NER系统，该系统最终实现跨领域命名实体的识别。输入条件：MSRA通用领域语料、特定领域数据（无标注或少量标注）；功能和性能指标要求：特定领域语料F值达到65%以上。

2.2设计目标：研究无标注或者弱标注条件下命名实体识别方法和迁移学习方法，提出具有一定创新性的、工程上合理可行的跨领域命名实体识别系统设计方案，设计方案须综合考虑社会、健康、安全、法律、文化以及环境等有关因素。根据设计的方案，用C 编程语言实现跨领域的命名实体识别系统，并完成系统测试和效果评价；对结果做归纳总结，得出有意义的结论，并展望后续的研究工作。希望该系统可以取得较高的准确率P、召回率R和F值。输入条件：MSRA通用领域语料、特定领域数据（无标注或少量标注）；功能和性能指标要求：特定领域语料F值达到65%以上。

2.3拟采用的技术方案及措施：运用自然语言处理、机器学习、深度学习和迁移学习等知识，结合特征工程、条件随机场和双向长短时记忆神经网络（BI—LSTM）等技术设计出NER系统，最后运用C 语言或者python语言或者java语言实现该系统。

3. 参考文献

[1] 林广和，张绍武，林鸿飞. 基于细粒度词表示的命名实体识别研究[J]，中文信息学报，2018，32（11）：62-71.

[2] 朱景东，杨立志，丁温雪等.基于主题标签和CRF的中文微博命名实体识别[J]，华中师范大学学报（自然科学版），2018，52（3）：316-321.

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付

注册

找回密码