基于机器学习的新闻网页识别方法研究与实现任务书

2020-02-18 17:25:24

1. 毕业设计（论文）主要内容：

现有的网页采集方法主要采用爬虫技术，首先从网络上获取网页源码，其次对网页进行解析，获取新闻标题和正文部分内容，最后对提取的文本进行按需处理。

但随着web技术的发展和网站商业化运作越来越严重，网页中噪声信息空前加大，使得很多方法己经不再适用于当今网页正文信息的提取，为网页文本信息的智能化提取带来了新的挑战。

例如在新闻文本采集过程中，一般只关注包含有用信息的网页。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

1）首先采集腾讯新闻，凤凰新闻等常见新闻门户网站的网页信息；

2）然后搜集相关资料，制作合适的数据集；

3）最后建立合适的模型，实现对非新闻网页的识别。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

1）2019/1/14—2019/1/22：查阅参考文献，明确选题；

2）2019/1/23—2019/2/22：进一步阅读文献，完成开题报告；翻译英文资料（不少于5000汉字），并交予指导教师检查。

3）2019/2/23—2019/4/30：对几大新闻门户网站的网页信息进行采集，建立合适的模型，实现对非新闻网页的识别。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

[1] 周志华. 机器学习. 清华大学出版社，2016

[2] 施生生. 精确web信息抽取关键技术与系统研究[d]. 2017.

[3] 陈西安. 智能web新闻文本采集方法研究[d]. 2016.

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付