基于贝叶斯方法的信息分类工具的研究与实现开题报告
2020-05-26 20:27:00
1. 研究目的与意义(文献综述包含参考文献)
摘要:计算机与网络技术自出现以来发展迅速,并日趋完善,互联网已日趋成为最主要的信息来源。由于网络中大量的信息是文本信息,作为有效组织和管理文本数据的重要基础的文本自动分类已成为具有重要应用价值的研究领域。基于贝叶斯的信息分类具有简单,有效,速度快的优点,成为文本分类的重要研究内容之一。
1.课题背景
l 随着计算机技术与网络技术的飞速发展,互联网得到了广泛应用。中国互联网信息中心(cnnic)在2011年1月19日发布的《第27次中国互联网网络发展状况统计报告》表明:截至2010年12月底,我国网民达到4.57亿人,较2009年增加7330万人。互联网普及率持续增至34.3%,与2009年底相比提高了5.4个百分比。全国域名数866万个,全国网站数191万个。互联网成为人们信息获取的重要来源。而这些信息中又有大量信息是文本数据,面对如此巨大的信息海洋,如何有效的组织和管理,进行自动分类,并快速,准确,全面的从中找到用户所需的信息成为一个重要研究课题。
2. 研究的基本内容、问题解决措施及方案
具体的研究内容:
运用贝叶斯理论,研究对文档进行自动分类的关键技术,包括文本分类的整个过程:中文分词,向量空间模型,特征权重计算,文本分类方法等。并根据对贝叶斯分类的研究,使用java在myeclipse平台上设计并实现一个基于贝叶斯方法的中文文本分类系统。
重点解决的问题: