基于支持向量机的中文网页分类器的设计与实现毕业论文
2021-03-27 17:57:49
摘 要
本文从信息的抓取一直到网页信息向量的训练与分类对中文网页分类进行了完整的研究。在现时期自媒体数量剧增的大环境下对中文网页分类器的研究必要性进行了申明。并从中文网页分类系统的初阶工作——中文网页预处理开始讲起。按照网页的主题内容和布局将中文网页切割为各个主次要信息块,提取主要信息块中的文本信息、超链接信息、网页标签属性。从而论述如何实施中文网页信息的爬取工作,如何在爬取的过程中对与分类无关的网页信息进行过滤。对提取的所有信息进行二次处理,进行中文分词与停词构建成能够表征网页的关键词特征模型。之后详细阐述了在将数据输入分类器进行处理之前进行特征提取的必要性,列举说明了特征提取的几种主要方式以及它们的优缺点。分析了SVM这种“0-1”分类器的工作原理和计算方法。论述了将多元分类转化为多重二元分类的概念,列举了利用这种思想通过SVM来分类处理的几种方法。最后利用scrapy框架、NLPIR中文分词系统和LibSVM机器学习学习库实现了基于SVM的中文网页分类器。实验结果表明,在处理样本相对较小的网页信息数据时,SVM算法能够使分类器保持较高的准确率。
关键词:网页分类, 预处理, 中文分词, 特征提取, 支持向量机
Abstract
This paper has carried on the complete research to the Chinese webpage classification from the information crawling up to the webpage information vector training and the classification. The significance of Chinese web page classification technology is described in the background of the times. And from the Chinese web page classification system to the initial work - Chinese web page preprocessing started. According to the theme content and structure of the web page, the Chinese web page is cut into various primary and secondary information blocks, and the text information, the hyperlink information and the web page label attribute in the main information block are extracted. All the information extracted is processed twice, and the Chinese word segmentation and link information extraction are constructed to characterize the keyword feature model of the webpage. It describes how to crawl the Chinese webpage information and how to crawl the process Unrelated web page information is filtered. The necessity of feature extraction before the data input classifier is elaborated is described in detail, and several main ways of feature extraction and their advantages and disadvantages are illustrated. The working principle and calculation method of "0-1" classifier of SVM are analyzed. Some ways of transforming multiple classification problems into binary classification problems using SVM are described. Finally, the Chinese web page classifier based on SVM is implemented by using the scrapy framework, NLPIR Chinese word segmentation system and LibSVM machine learning learning library. The experimental results show that the SVM algorithm can keep the classifier with high accuracy when dealing with relatively small web page information
Keywords: Web page classification, preprocessing, Chinese word segmentation, feature extraction, support vector mac
目 录
第1章 绪论 1
1.1 研究背景及意义 1
1.2 中文网页分类系统的研究现状 1
1.3 本文的主要研究内容和组织结构 2
第2章 中文网页分类系统相关原理 4
2.1 中文网页预处理 4
2.1.1中文网页信息提取 4
2.1.2中文分词与停词 5
2.2 中文网页特征提取 6
2.2.1特征选择 7
2.2.2生成特征向量 9
2.3 支持向量机技术 10
2.3.1支持向量机概述 10
2.3.2支持向量机的数学描述 12
2.3.3支持向量机的多元分类 13
2.4 本章小结 15
第3章 中文网页分类系统设计与实现 16
3.1 系统总体设计 16
3.2 系统模块实现方式 17
3.2.1网页信息爬取模块 17
3.2.2特征提取及SVM模块 21
3.3 实验结果及分析 22
3.4 本章小结 23
第4章 总结与展望 24
4.1 全文工作总结 24
4.2 下一步工作展望 24
参考文献 26
致谢 28
第1章 绪论
研究背景及意义
近年来,对人们的娱乐方式、工作方法和研究途径带来影响最大的毫无疑问是智能手机的发明和普及。人们可以随时随地的上网,这样的方便催生了大量的门户网站和功能服务性网站。微博、微信、淘宝和其他各类网站或者手机app的成功使得无数的企业家投身于互联网事业中,更多的年轻人也选择进入互联网行业来实现自己的梦想。而实际上,在智能手机风暴席卷而来之前,中国的网民数量和网站数量就长时间处于世界前列。随着互联网格局受到近年来的各种新兴自媒体的影响而发生变化,网络用户消费者成为了网页内容的主要生产者。中国的人口基础十分庞大,每天产生的网络内容的数量之大可想而知。可想而知,中国互联网网页信息数正在以空前未有的速率涌现上升。
在如此的新时期环境下,传统的人工网页分类方法是不切实际的,不但花费大量的人力和财力,也会使人们想要从信息数量巨大的互联网中获取所需的信息变得越来越困难,网络安全部门想要对网页信息进行有效的监控也存在不小难度。因此基于机器自学习算法的网页自动分类器的研究就变得炙手可热且十分必要。SVM就是一种为了解决“0-1”自动分类问题而被提出的机器自学习算法,本文就将利用这种算法,对其进行更深一层的应用,使其能够解决更为复杂的多分类中文网页分类问题。
中文网页分类系统的研究现状
多数网页的内容主体是文本,可能还包含少量图片和链接等信息,所以网页分类问题的研究自然而然是从文本分类问题的研究开始的。可是,传统的文本分类方式并不可以直接应用于网页分类。网页的构成内容繁杂多变,网页中的文本不单只包含网页文章的标题和正文等内容,可能还包含形式各样的广告、版权、用户资料和网民评论等信息,而这些信息对于网页分类来说效用很低,其中大多文本信息甚至是无用的。而且由于网页中除了包含大量无用的文本和图片信息之外还可能包含复杂的层次和嵌套式关系,网页文本信息的获取并没有传统文本分类时那么容易。所以进行网页分类首先就要用到网页特征挖掘技术。大量实验研究已经证明,充分利用网页文档中的HTML标签,能够明显提升网页分类器的性能。钟旭东[8]围绕实现网页特征更高效的表征形式为中心,详细分析HTML标签权值自动调整的重要性。标签权值多由人工确定,研究提出以改进的差分进化算法为基础,实现标签权值的自动寻找最优值;最终,研究实现了针对以上改进的训练与测试系统。