新闻网页的语义抽取研究与实现开题报告
2021-03-11 00:31:15
1. 研究目的与意义(文献综述)
随着现代社会的发展,网络已成为信息时代不可忽视的力量,网络普及范围日益广泛、网民数量快速增加、网页的内容不断更新、网站不断蓬勃建立。网络不仅是一种媒体,还成为人们生活的一种方式。网络为人们提供了丰富多彩的新闻信息,为大众提供了一个各取所需、畅所欲言的平台,很多人已经习惯了每天上网浏览新闻,网络新闻成为很多人及时全面了解时事的重要渠道,因此从大量的网络新闻中提取关键信息则显得尤为重要。如何准确的从每篇新闻中提取关键词是本课题研究的重点。
现如今,在网页爬取,网页去噪,中文分词,自然语言处理等方面前人已经做了不少的研究,但整合在一起的却非常少,而对于新闻关键词的提取则需要对以上技术进行整合并优化。
2. 研究的基本内容与方案
课题所最终目的是提取每篇新闻的关键词,该过程首先是要求正确地识别一个网页是否为新闻网页,然后进行去噪,也就是过滤该新闻网页中存在的标签、超链接等与新闻无关的内容,提取新闻的标题和内容。其次对内容文本进行分词,统计词语出现的频率和位置,然后选取一定量词语作为候选关键词。对候选关键词进行语义分析把那些出频率高但对新闻主题作用不大的词语去除掉,形成该新闻的关键词。总的来说研究的内容包含以下三个方面:
(1) 研究新闻网页识别机制,选择新闻网页识别模型,构建新闻网页识别特征,从而正确获取新闻网页。
(2) 研究新闻网页内容过滤机制,包括选择过滤组件技术路线、确定过滤抽取步骤、过滤/抽取规则等,用以提取出新闻的重要信息如标题,内容等。
3. 研究计划与安排
第1~3周:查阅文献;分析题目研究现状,学习基本理论;
第4周:阅读文献、撰写开题报告,并进行英文文献翻译;
第5~6周:运用所学的软件设计理论,完成整个系统的需求分析和系统设计;
4. 参考文献(12篇以上)
[1] 龚真平.基于htmlparser的web文献信息提取[j]. 软件导刊,2011,10(2):14-15.
[2] 张亮.基于htmlparser和httpclient的网络爬虫原理与实现[j]. 电脑编程技巧与维护,2011,20:94-103.
[3] 于立艳.基于html的web信息抽取技术的研究与应用[d].哈尔滨:哈尔滨工程大学,2011.