网页信息自动提取技术的研究开题报告
2021-12-18 21:43:08
全文总字数:1791字
1. 研究目的与意义及国内外研究现状
2015年2月初,在北京中国互联网信息中心(cnnic)发布了第35次《中国互联网网络发展状况统计报告》。报告显示:截至2014年12月,我国网民规模达6.49亿,互联网普及率为47.9%。互联网发展迅速,网络已经发展成为包含多种信息资源、站点遍全球的巨大信息服务中心。信息技术渗透到社会生活的方方面面,人们可以从互联网上获得越来越多的包括文本、数字、图像、声音、视频等信息。然而,面对不断增长的网页数据,我们急需解决的问题是如何获取其中有价值的信息或者是有价值的信息。
网页信息提取技术的核心就是从网页中所包含的无结构或半结构的信息中识别用户感兴趣的信息,并将其转化为更为结构化、语义更为清晰的格式。网页信息提取技术可以帮助人们在纷繁复杂的web信息海洋中快速准确的查找所需信息,加快人们获取信息的速度,从而提高生产效率。另外,半结构化数据抽取所得到的结构化信息可以直接被其他的应用程序所利用,进一步完成信息搜索、数据挖掘等后续网页信息处理,具有广阔的应用价值和前景。
国内外研究现状
从20世纪60年代中期,人们开始研究从自然语言文本中获取结构化的信息,这被当做是信息抽取技术研究的起端。20世纪90年代初开始,由于消息理解系列会议的召开,信息提取技术逐步发展。信息提取技术已经成为了自然语言处理领域的一个重要分支,并一直推动着该领域的研究不断前进,国外展开了许多项目的研究实践:sri组织的fastus系统、bbn公司的sift系统、美国纽约大学的proteus系统等。
2. 研究的基本内容
基于网页信息提取技术的发展历史进行的回顾和总结其研究现状,分析html网页结构特点,提出基于网页结构聚类的网页信息提取方法。主要研究内容如下:
1.网络爬虫,通过指定url作为入口,下载符合要求的网页。
2.研究网页结构的相似性,在基于dom模型的基础上,根据输的相似性,提出了一种适合网页结构特点的网页结构相似度计算方法。
3. 实施方案、进度安排及预期效果
第一阶段:查询资料,分析策划系统实现方案
第二阶段:进行前台界面设计
第三阶段:完善分模块功能
4. 参考文献
[1]孙及园.对web网页的信息提取技术的研究[d].福州大学,2001.
[2]栗勇兵,韩平,董启雄.网页信息自动提取的设计与实现[j].计算机光盘软件与应用,2012,18:187-188.
[3]朱丽娜.中文网页分类特征提取方法研究[d].中国石油大学,2009.