基于TextRank关键词提取算法的共词网络构建文献综述
2020-04-15 15:48:10
1.1目的和意义
如今,随着互联网信息技术的不断进步与发展,网络上各类信息海量增长。而信息量的剧增,信息内容的丰富多样、信息结构的复杂多变,信息传递的速度加快同样使得网络文本数据杂乱无章,因此如何从中快速的检索并掌握有用的数据变得尤为重要。
关键词作为对文章内容的简要概括,它可以帮助用户通过一种有意义的方式来对信息进行分类。因此关键词提取是从网络上的资源内容中获取有用的数据的有效方法。TextRank是一个基于图排序的、用于文本处理的关键词提取算法。使用TextRank算法,不需要有深入的语言学和专业领域知识,它是一个无监督的算法,这个特性使得它可以很方便的应用到其他领域和语言中。
1.2国内外研究现状
随着信息检索技术的发展,1948年Calvin Mooers首次提出关键 字的概念,中文关键词也正是西方研究向中国迁移的直接成果之一.关键词提取中最著名的算法是使用朴素贝叶斯机器学习算法的Kea,Tumey利用统计信息作为一个特征来改进该算法,目前的 Kea系统则使用基于领域词典的Kea 算法,大大提高了关键词提取的性能.国内的关键词提取则相对起步较晚,1997年有关PAT树 的关键词提取算法被提出,2008年章杨等人分别将条件随机场和 TextRank算法引入关键字提取领域,进行了一定程度的改进.一些 研究人员则使用利用词义代替词的方法,在一定程度上解决了中文分词及关键词提取中的歧义问题。
{title}2. 研究的基本内容与方案
{title}2.1设计的基本内容
使用Python语言编写程序,通过TextRank算法对一百篇文献进行关键词提取,并通过关键词之间的联系构建出共词矩阵。
2.2目标
通过Python语言完成一个简单的关键词提取系统,该系统的主要功能是对文献的关键词进行提取,并打印出关键词的共词矩阵。
2.3拟采用的技术方案和措施