基于Python的中文文本关键字提取方法研究文献综述
2020-04-15 09:43:16
1.研究目的及意义(含国内外现状分析)
【研究目的及意义】
随着信息技术的普遍应用,人类获取数据的能力不断增强;据有关统计,在全世界的业务管理、政府管理、科学与工程管理和其他应用领域存在大量数据,并且其数量和规模不断地增加和扩大。然而,如何利用这些海量数据,如何从数据中提取有用的信息,是经营管理者面临得一个共同难题。为解决这个难题,有关人员提出一系列技术和方法,这些技术和方法就是数据库知识发现,又称为数据挖掘技术[1],目的就是智能化和自动化地发现隐藏的信息和知识,发现先前未知的模式,能从历史数据中预测未来发展趋势。它是一个交叉学科领域,受多个学科影响,包括数据库系统、统计学、机器学习、可视化和信息科学等。
数据挖掘的研究对象主要针对结构化数据,如关系的、事务的和数据仓库的数据。然而,现实世界中大部分可获取的信息存储在文本数据库,文本数据库由各种数据源(如新闻文章、研究论文、书籍、数字图书馆、电子邮件消息和Web页面)的大量文档组成。随着网络技术的发展,电子形式的文本信息量飞速增长,如电子出版物、电子邮件和万维网资源(它可被视为一个巨大的、互连的动态文本数据库)等,文本数据库被广泛地应用。当数据挖掘的对象是文本数据时,这个过程被称为文本挖掘[2-3]。
文本是半结构化数据,既不是完全无结构也不是完全结构化,例如一篇文档可能包含结构化字段,如标题、作者、出版日期、长度等,也可能包含大量的非结构化的文本成分,如摘要和内容。文本半结构化的特性使得常规数据挖掘的挖掘效果不佳。因此,文本挖掘采用的方法与传统的数据挖掘不同,它的方法主要来自于自然语言理解处理等领域。
关键词是表述文档中心内容的词汇,是计算机系统标引论文内容特征的词汇,是便于信息系统汇集以供读者检索的词汇,它的出现和发展使得计算机检索成为可能。关键词提取是文本挖掘领域的一个分支,是文档检索、文档比较、摘要生成、文档分类和聚类的基础性工作[4-5]。
针对中长篇幅的中文文本,不易于快速把握其关键内容,采用python语言对TF-IDF算法、TextRank算法以及K-means聚类算法等分别对不同篇幅的文本进行关键词提取,并就提取关键词的效率和准确率进行对比,这是本设计的研究目的。并针对不同篇幅文本提出不同的关键字提取策略,降低文本信息掌握的时间成本并保证信息掌握的准确度,具有一定的学术意义和现实意义。
【国内外研究现状】
20世纪中期,美国IBM公司的H.P.Luhn在文本分类中引入词频的概念[6],通过特征项出现的频率来衡量其对分类的重要性,这是国外第一次在自动分类领域做出研究。60年代到初, Maron在ACM发表了一篇自动化分类的文章[7],首次提出了基于关键词进行分类的概念,之后更多的学者基于此思想对该领域进行研究,如Salton等人在20世纪70年代提出空间向量模型的概念[8],进一步推动了文本分类技术的发展。到了80年代,基于知识工程方法占主导作用,该方法主要依据的是许多专家的知识作为规则人工组建分类器以实现文本分类[9]。这种方法需要大量的知识库和人力支持,而且不能处理新词,领域固定不可移植,不够灵活。90年代后,由于信息技术的不断发展,电子文本的数目日益增加,基于知识工程的自动分类算法已经不能满足人们的需求,因此文本分类逐渐发展到一个新的阶段,基于机器学习的文本分类方法出现并成为文本分类领域内的研究热点。相较于基于知识工程的分类算法,基于机器学习的分类算法具有灵活、可移植性好、成本低的特点,且具有较高的分类准确率和效率。目前我们所说的分类方法都是基于机器学习的文本分类方法,该方法已经在多个领域内得到广泛应用,如搜索引擎、机器学习、自动文摘、文本数据库等领域。
中文分词技术起步晚,与国外相比还存在着一定差距。1981年侯汉清教授对中文文本分词问题进行了深入地分析和讨论,此后,清华大学、复旦大学等机构在此基础上进行了进一步探讨和研究,出现了一系列文本分词系统,如清华大学吴军以语料相关系数作为分类依据,以词频和常用词搭配作为补充,利用停用词表和人工指导分类的方法推出自动归类系统,上海交通大学的王永成和张坤利用部件词典技术、自动分类技术和关键词分类归属表推出的自动归类系统,山西大学刘开瑛使用三维加权算法和类别词加权算法,并依据最长匹配算法分词推出的金融类自动归类系统。