短文本自动摘要算法研究开题报告
2020-02-18 19:29:00
1. 研究目的与意义(文献综述)
1.1目的及意义
科技的发展极大地促进了社会的进步,社会节奏愈发加速,我们已经进入信息化时代。得益于科技革命,网络门槛的降低使得人们更直接,更容易,更平等的接触信息,获得信息,发布信息以及使用信息。但通过网络能获得的信息以多种形式呈现,如文本、音频、视频、图片等,致使由此携带的信息已经远远地超出了人类接收信息的速度;另外,信息存在即时性、易变性、碎片化的特点,使得人们难以在信息大爆炸的时代快速有效地获取信息,为降低信息超负荷化对获取信息造成的难度,又虑及并不是每个人都具备良好的信息过滤能力,自动摘要技术被提出并加以发展,协助人们在信息化时代更高效、更快速地获取以网络为载体的文本信息,是一种利用计算机自动地将文本或文本集合转换成简短摘要的一种信息压缩技术。利用此技术,在一定程度上促进了人们对有效信息的获取与利用。
当下的信息化时代,各种社交网络、社交媒体蜂拥而至,文本信息也因此更加多样化,如新闻文本及评论、博客、论坛发帖、商品评价、微博以及手机的短信息文本等。随着社会的发展进步,即时信息的获取更趋向于手机一类的移动设备,文本信息也随之由大化小,变为海量短文本,这推动了自动摘要技术向短文本处理的转化。
2. 研究的基本内容与方案
2.1研究目标
本次毕业设计将研究短文本自动摘要算法的背景意义、研究现状以及其基本原理与相关技术研究,研究目标是能够及时、准确的挖掘出短文本的主题信息,并将这些信息以简洁、完整的形式表现出来,完成短文本自动摘要的任务。本文也将通过大量的实验分析,主要针对社交媒体上发布的短文本信息,通过短文本自动摘要技术的应用,自动生成一段可以较为全面概括该事件的摘要文本,以满足用户对有效信息获取的需求,以节省用户的检索和阅读时间,从而提高从社交媒体中获取有效信息的效率和精准度。
2.2研究基本内容
3. 研究计划与安排
在综合考虑设计任务之后,设计进度安排如下:
第1-2周:收集与课题相关的教材,期刊,论文等,熟悉相关理论知识。确定方案,完成开题报告;
第3-5周:学习和研究短文本分析的相关理论;
4. 参考文献(12篇以上)
[1] 彭佳杰. 基因本体术语相似度计算和扩展方法研究[d]. 哈尔滨:哈尔滨工业大学,2015.
[2] 蔡圆媛. 基于知识整合的词汇语义相似度计算方法研究[d]. 北京:北京交通大学,2016.
[3] 范少萍, 安新颖, 逯万辉. 医学文献主题语义相似度计算方法研究[j]. 图书情报工作, 2017.