新闻网页的自动识别和过滤任务书
2020-09-15 22:04:07
1. 毕业设计(论文)主要内容:
根据线程提交的URL,对该URL对应的网页执行自动识别和过滤任务并为后续的总结阶段准备数据输入。
识别任务组件包括两个模块,训练模块和识别模块。首先随机地选择一些Web网页用于训练,这些网页被处理为URL属性、结构属性、内容属性等重要特征组成的向量集。在这个特征向量集上,我们通过训练建立一个分类器。然后根据输入的URL,系统获取该URL对应的网页,同训练模块处理网页方式一样,将该网页处理为一个URL属性、结构属性、内容属性等重要特征组成的向量。最后,将处理好的向量输入到训练模块建立的分类器,判断该URL对应的网页是否为一个新闻网页。如果该网页不是新闻网页,系统将不做任何处理,否则,对该网页执行过滤任务。
过滤组件的技术路线是采用新闻内容抽取技术,提取Web新闻标题和web新闻内容,从而达到过滤网页导航、广告、相关链接等噪音的耳的。本系统的数据源拟设定web新闻网站,我们在该模块采用基于规则的抽取技术,在该模块中采用了预定义的路径模式抽取规则,抽取器根据这些抽取规则执行抽取任务。其中:路径模式抽取规则可以手工配置,也可以使用机器学习的方法获得。2. 毕业设计(论文)主要任务及要求
完成的主要任务及要求:
1.查阅15篇相关文献(含2篇外文),并每篇书写200—300字文献摘要(装订成册,带封面);
2.认真填写周记,完成800字开题报告;
3.完成5000中文字以上的相关英文专业文献翻译,并装订成册(中英文一起,带封面);
4.完成系统的编码与调试;
5.完成10000字以上的毕业论文;
6.进行论文答辩。
3. 毕业设计(论文)完成任务的计划与安排
完成任务的时间节点:
(1)2017/1/14—2017/2/22:确定选题,查阅文献,外文翻译和撰写开题报告;
(2)2017/2/23—2017/4/30:系统架构、程序设计与开发、系统测试与完善;
(3)2017/5/1—2017/5/25:撰写及修改毕业论文;
(4)2017/5/26—2017/6/6:准备答辩。