文本关键词提取和自动分类算法的研究与实现文献综述

2020-06-23 20:45:02

一.课题背景随着互联网技术的飞速发展，网络中出现了巨大的信息资源，而中文文本信息在其中占有很大的比重，因此我们如何快速、准确地获取自己所需要的中文信息成为我们急需解决的课题。

而针对中文文本的数据挖掘技术可以帮助我们解决这一难题。

二.数据挖掘理论数据挖掘[1][2][3][4](Data Mining)就是从大量的数据中提取出对用户真正有用或感兴趣的知识(Knowledge)，习惯上被称为数据库中知识发现(Knowledge Discovery in Database,KDD)的同义词。

数据的挖掘由七个步骤组成：1、数据清理：消除噪声，2、数据集成：多种数据源可以组合在一起，3、数据选择：从数据库中检索出与任务相关的数据，4、数据变换：数据变换成适合挖掘的形式，5、数据挖掘：使用人工智能方法提取数据模式，6、模式评估：根据某兴趣度度量，识别表示数据真正有用的模式，7、数据表示：使用可视化技术，向用户提供挖掘的数据。

对于各种数据源，如关系数据库，事务数据库，面向对象数据库，文本数据库，音频、视频等多媒体数据库以及web信息等[5]，都可以进行挖掘。

三.文本数据挖掘在现实世界中，大部分信息是存储在文本数据库中，由各种数据源（如新闻、书籍、数字图书馆、电子邮件和web页面等）的大量文档组成，随着Internet的快速增长，文本数据库也得到了迅速发展。

传统的处理文本数据库的方法是信息检索技术，就是根据用户输入的关键字定位相关文档。

虽然信息检索技术有方便快捷的优点，而且在现实生活中有很广的应用，但是大量电子文档的产生，这种方法已经无法满足处理文本数据库信息。

因此，为了更加有效地处理文本数据库，出现了文本自动分类（Automatic Text Categorization）[6]技术，就是利用计算机对对象按照一定的标准进行自动分类标记。

按照文本语料的性质和应用需求的不同，文本自动分类可分为基于分类体系的自动分类、基于信息过滤和用户兴趣的自动分类。

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付

注册

找回密码