登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 开题报告 > 电子信息类 > 电子信息工程 > 正文

跨领域命名实体识别技术研究与实现开题报告

 2020-02-18 19:25:14  

1. 研究目的与意义(文献综述)

命名实体识别(named entity recognition,nre)作为自然语言处理的基础工作,其主要任务是识别文本中的人名、地名、组织机构名等专有名词和有意义的时间、日期等短语。ner作为信息抽取中重要的组成部分,其实别结果对于后续的关系抽取、语义角色标注、机器翻译等任务有很大的影响,能否正确识别出命名实体决定着信息的抽取率。命名实体识别任务通常和领域语料特征密切相关,这导致系统的泛化性较差。对于某些特定领域数据,探究如何在无标注或少量标注数据前提下识别命名实体,是自然语言处理任务的重要问题。毕业设计的目的就是掌握现有命名实体识别模型的建模理论、优化策略、训练方法和评价方法,提出具有一定创新性的跨领域命名实体识别方法,实现跨领域的命名实体识别系统,完成训练及效果评价。

命名实体识别当前并不是一个大热的研究课题,因为学术界部分认为这是一个已经解决了的问题,但是也有学者认为这个问题还没有得到很好地解决,原因主要有:命名实体识别只是在有限的文本类型(主要是新闻语料中)和实体类别(主要是人名、地名)中取得了效果;与其他信息检索领域相比,实体命名评测预料较小,容易产生过拟合;命名实体识别更侧重高召回率,但在信息检索领域,高准确率更重要;通用的识别多种类型的命名实体的系统性很差。

同时,中文的命名实体识别与英文的相比,挑战更大,目前未解决的难题更多。英语中的命名实体具有比较明显的形式标志,即实体中的每个词的第一个字母要大写,所以实体边界识别相对容易,任务的重点是确定实体的类别。和英语相比,汉语命名实体识别任务更加复杂,而且相对于实体类别标注子任务,实体边界的识别更加困难。现代汉语日新月异的发展给命名实体识别也带来了新的困难。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

2.1设计的基本内容:结合特征系统、机器学习和条件随机场等知识,设计一个ner系统,该系统最终实现跨领域命名实体的识别。输入条件:msra通用领域语料、特定领域数据(无标注或少量标注);功能和性能指标要求:特定领域语料f值达到65%以上。

2.2设计目标:研究无标注或者弱标注条件下命名实体识别方法和迁移学习方法,提出具有一定创新性的、工程上合理可行的跨领域命名实体识别系统设计方案,设计方案须综合考虑社会、健康、安全、法律、文化以及环境等有关因素。根据设计的方案,用c 编程语言实现跨领域的命名实体识别系统,并完成系统测试和效果评价;对结果做归纳总结,得出有意义的结论,并展望后续的研究工作。希望该系统可以取得较高的准确率p、召回率r和f值。输入条件:msra通用领域语料、特定领域数据(无标注或少量标注);功能和性能指标要求:特定领域语料f值达到65%以上。

2.3拟采用的技术方案及措施:运用自然语言处理、机器学习、深度学习和迁移学习等知识,结合特征工程、条件随机场和双向长短时记忆神经网络(bi—lstm)等技术设计出ner系统,最后运用c 语言或者python语言或者java语言实现该系统。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究计划与安排

3.1 第1周—第3周 搜集资料,查阅文献,撰写并提交开题报告;

3.2 第4周—第11周 学习自然语言处理、机器学习、深度学习和迁移学习等知识,设计出可行的命名实体识别系统,并运用c 或者python或者java实现命名实习体统;

3.3 第12周—第13周 撰写论文初稿;

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

[1] 林广和,张绍武,林鸿飞. 基于细粒度词表示的命名实体识别研究[j],中文信息学报,2018,32(11):62-71.

[2] 朱景东,杨立志,丁温雪等.基于主题标签和crf的中文微博命名实体识别[j],华中师范大学学报(自然科学版),2018,52(3):316-321.

[3] yadav v, bethard s. a survey on recent advances in named entity recognition from deep learning models[c]//proceedings of the 27th international conference on computational linguistics. 2018: 2145-2158.

剩余内容已隐藏,您需要先支付 5元 才能查看该篇文章全部内容!立即支付

微信号:bysjorg

Copyright © 2010-2022 毕业论文网 站点地图