基于机器学习的新闻网页识别方法研究与实现开题报告

2020-02-18 19:35:24

1. 研究目的与意义（文献综述）

随着互联网的发展，网页已经彻底融入人们的生活，网页的种类和数量都不断增加，现在已经到了海量的地步。Web上的海量数据蕴含着很多有价值的信息。为了获得并分析利用这些有价值的信息，通常首先需要对Web网页进行识别，然后才能获取精确有用的结构化数据，以及对这些结构化数据执行深度分析处理。然而，Web网页的多样性以及各种类型Web数据的异构性使得从Web中有效地获取精确有用的数据成为一个较大的技术难题。因此，必须在抽取数据之前对各种Web网页进行识别、分类，针对不同的网页，比如新闻网页以及非新闻网页，对分类以后的网页采取不同的方法对数据进行抽取和处理。网页识别方法的研究主要分三个过程，即网页信息的采集，数据集的制作，非新闻网页的识别。

首先是网页采集，现有的网页采集方法主要采用爬虫技术，使用一个Scrapy框架，Scrapy是Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据，任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类，如BaseSpider、sitemap爬虫等，最新版本又提供了web2.0爬虫的支持，可以从网络上获取网页源码；其次对网页进行解析，获取新闻标题和正文部分内容；最后对提取的文本进行按需处理。但随着Web技术的发展和网站商业化运作越来越严重，网页中噪声信息空前加大，使得很多方法己经不再适用于当今网页正文信息的提取，为网页文本信息的智能化提取带来了新的挑战。例如在新闻文本采集过程中，一般只关注包含有用信息的网页。非新闻网页包含网站引导页面、新闻列表页、部分含有多图且无正文的网页页面或者多图有少部分对图片描述文字的页面和多数问答类型的页面等等。这类网页的文本特征很弱，提取出来的正文信息也不具有新闻价值，反而会造成高提取错误率，因此在新闻文本采集过程中进行新闻网页自识别的研究具有重要的意义.现有的基于用户交互的方法主要依赖用户交互，这种方法既没有利用自动网页数据抽取技术来减少用户交互负担从而提高规则生成效率，也没有充分利用机器学习方法来提高规则鲁棒性。基于监督学习的可以生成比较鲁棒的规则。

2. 研究的基本内容与方案

本毕业设计研究的基本内容是如何通过机器学习自觉识别新闻网页，从新闻网页中提取有用信息的目的，实现一种新闻网页识别方式。本次毕业设计的具体目标是，操作者在电脑前不操作电脑，电脑能自动对数据集进行识别。

在具体毕业设计进行过程中，我打算按照以下流程进行相关知识的学习和毕业设计的实施。

（1）python基础学习：由于要对数据集进行制作，网页抓取必不可少，比较常用的爬虫框架就是基于python的scrapy框架，所以python学习必不可少。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 研究计划与安排

（1）2019/1/14—2019/1/22：查阅参考文献，明确选题；

（2）2019/1/23—2019/2/22：进一步阅读文献，完成开题报告；翻译英文资料（不少于5000汉字），并交予指导教师检查

（3）2019/2/23—2019/4/30：对几大新闻门户网站的网页信息进行采集，建立合适的模型，实现对非新闻网页的识别。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 参考文献（12篇以上）

[1]. 文友枥. 网页分类与信息采集方法研究:[硕士学位论文] 电子科技大学,2017

[2] 施生生. 精确web信息抽取关键技术与系统研究:[硕士学位论文] 南京大学,2017

[3] 陈西安. 智能web新闻文本采集方法研究:[硕士学位论文] 电子科技大学,2016

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付

注册

找回密码