基于J2EE的中文文本分类管理系统设计与实现毕业论文
2021-10-06 12:24:50
摘 要
如今互联网络上的信息呈爆炸式的增长,大量的信息以文本形式存在。为了管理并利用这些文本及信息,研究文本文档分类有十分重大的意义。本篇文章基于支持向量机SVM设计并利用j2ee平台实现了中文文本分类系统。此系统大体可分为三个部分,分别是训练、分类和结果展示。系统包含的模块及过程具体如下:文本预处理模块,包含中文分词和停用词处理,采用中科院ICTCLAS分词工具进行实现。特征选择模块,使用了文本频率的方式进行选择并介绍了一些其他的方法。权重计算模块,使用TF*IDF权重计算方法。文本表示模块,采用向量空间模型对文本进行表示。分类器构建模块,实现了核函数并基于“一对多”思想进行分类器的训练。分类处理模块,使用训练好的分类器依次对文本进行分类处理。结果展示模块,按照类别分组显示分类结果并得出了不同分组下分类的准确率。本文网上查找的训练集语料进行实验,并对结果进行了分析。
关键词:文本分类,支持向量机,文本表示,特征选择,权重计算
Abstract
Information on the Internet is growing in an explosive way, and large amounts of this information are in the form of text. meanwhile, research on text classification tends to be much more significant in text processing area. This paper proposes and develops a text classification system based on SVM(Support Vector Machine), which includes three parts by process: training, classification and results.The modules of this text classification system are as follows: Text Pre-processing Module: it includes the processing for the Chinese word segmentation and stop word. In this paper, the tool of ICTCLAS by Chinese Academy of Science is used to pre-process the text. Feature Selection Module: it implements one method of Feature Selection, which is the Information Gain.Weight Computation Module: it computes the weight by TF*IDF. Text Presentation Module: it represents the text in vector space model. Classifier Construction Module: it adopts kernel functions realized by linear, polynomial, RBF and sigmoid methods, and trains the classifier in a one-to-many way. Classification Module: it classifies the text by using the trained classifier. Results Module: it gives the classification results and also with some performance evaluation.
Key Words:Text categorization;SVM;Text representation;feature selection;Weight calculation
目 录
摘 要 I
Abstract II
1 绪论 1
1.1 研究目的及意义 1
1.2 国内外研究现状 1
1.3 本文主要的研究工作与组织结构 2
2 文本分类相关理论及技术 4
2.1 文本分类概述 4
2.1.1 文本分类的任务 4
2.1.2 文本分类的过程 4
2.2 中文分词 5
2.3 文本的表示 6
2.3.1 布尔模型 6
2.3.2 概率模型 6
2.3.3 向量空间模型 7
2.4 文本特征选择 8
2.4.1 文档频率 8
2.4.2 信息增益 9
2.5 特征项权重计算 9
2.5.1 布尔权重 9
2.5.4 TFIDF 权重 10
2.6 SVM 文本分类模块实现 10
2.6.1 引言 10
2.6.2 支持向量机的线性可分问题 11
2.6.2 支持向量机的线性不可分问题 13
2.6.4 支持向量机的核方法 14
2.6.5 多分类策略的一对多策略 14
2.6.6 多分类策略的DAG 策略 15
3 系统的设计与实现 16
3.1 系统需求分析 16
3.2 系统开发环境 16
3.3 系统概要设计 17
3.3.1 分类器训练的概要设计 17
3.3.2 分类器分类过程概要设计 18
3.4 系统详细设计 18
3.5 基于训练语料的分类实验结果 20
3.5.1 训练库语料简介 20
3.5.2 实验结果 21
4 总结与展望 22
参考文献 23
致 谢 25
1 绪论
1.1 研究目的及意义
1窗体顶端
当下人类社会已然走入信息时代,信息资源同物资、能源资源一样都十分重要,全世界各国的当局都已经出台了海量的信息化建设的方案,都不希望本身在这个爆炸式加速的时代被落下,我国对信息资源的统筹技术可以说是十分的重视。当今时代,互联网上的各种各样的信息可以说是海量的,而且还在不断的呈几何式的增长,更重要的是这些巨大数量的信息大都是以文本的方式存在的,除此之外在很多公司、科研机构以及广大的学校院校和政府机关中,都保留着大量的纸质资料,而且长年累月,成为了海量。但是纸质文档资料可以通过一定的方式将其转化为数字文档资料进行保存,转化的方式通常有人工手工录入,利用扫描仪扫描或利用专业设备进行拍照等方式。面对这些海量文本文档信息,对这些设备进行研究管理利用就变得十分的困难,所以我们需要这样的技术对其进行管理。这些技术便称为文本处理技术,而本文所研究的文本分类技术就是文本处理技术中比较重要的技术之一,所以对于我们来说研究文本分类技术有十分重要的意义。
伴着互联网在我国的深入普及,中文信息资源呈爆炸式增加。为了更好地挖掘和利用其蕴含的庞大信息,基于中文的文本分类系统成为了一个研究热点。国外内的很多学者努力于此并获得了一定的研究结果和成绩。然而,在基于中文的文本分类研究中,仍旧还有很多困难的问题。如何有效的设计实现中文文本分类系统仍然是一个具有挑战性的研究课题。 本次设计在可以在J2EE平台上实现计算机中文文本信息的分类能大幅节约人力人本,提升生产效率,从而实现用户对文档清晰便捷的管理。
1.2 国内外研究现状
文本分类的研究的最初历史克追溯至20世纪50年代。五十年代之后,文本分类的发展经过了四个发展阶段:第一阶段(1958一1964),对于文本自动分类的可能性的研究;第二阶段(1965一1974),自动分类系统的试验;第三阶段(1975一1989),自动分类系统的实用性;第四阶段(1990至今),运用互联网进行自动分类的研究。