基于机器学习的新闻网页识别方法研究与实现任务书
2020-02-18 17:25:24
1. 毕业设计(论文)主要内容:
现有的网页采集方法主要采用爬虫技术,首先从网络上获取网页源码,其次对网页进行解析,获取新闻标题和正文部分内容,最后对提取的文本进行按需处理。
但随着web技术的发展和网站商业化运作越来越严重,网页中噪声信息空前加大,使得很多方法己经不再适用于当今网页正文信息的提取,为网页文本信息的智能化提取带来了新的挑战。
例如在新闻文本采集过程中,一般只关注包含有用信息的网页。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
2. 毕业设计(论文)主要任务及要求
1)首先采集腾讯新闻,凤凰新闻等常见新闻门户网站的网页信息;
2)然后搜集相关资料,制作合适的数据集;
3)最后建立合适的模型,实现对非新闻网页的识别。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
3. 毕业设计(论文)完成任务的计划与安排
1)2019/1/14—2019/1/22:查阅参考文献,明确选题;
2)2019/1/23—2019/2/22:进一步阅读文献,完成开题报告;翻译英文资料(不少于5000汉字),并交予指导教师检查。
3)2019/2/23—2019/4/30:对几大新闻门户网站的网页信息进行采集,建立合适的模型,实现对非新闻网页的识别。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
4. 主要参考文献
[1] 周志华. 机器学习. 清华大学出版社,2016
[2] 施生生. 精确web信息抽取关键技术与系统研究[d]. 2017.
[3] 陈西安. 智能web新闻文本采集方法研究[d]. 2016.
剩余内容已隐藏,您需要先支付 5元 才能查看该篇文章全部内容!立即支付