登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 计算机类 > 计算机科学与技术 > 正文

基于贝叶斯方法的信息分类工具的研究与实现毕业论文

 2022-04-09 21:52:54  

论文总字数:20238字

摘 要

现如今计算机与网络技术飞速发展,并日趋完善,互联网中有大量信息来源于网络。而这些信息又有大量的信息是以文本的形式存在,因此有效组织和管理文本数据的文本自动分类已经成为了极具研究价值的研究领域。基于贝叶斯的信息分类因其简单,快速,有效的优点成为人们重点研究的分类方法之一。

论文涉及了文本分类的几种关键技术,其中包括文本的分词,文本的向量表示和特征权重计算等。然后对贝叶斯文本分类的模型进行了讨论,分析以及实现。使用java语言实现了基于贝叶斯的信息分类系统。最后通过抽样调查法选取样本实验对比,得出贝叶斯信息分类的精确度并且分析原因。

关键词:文本分类 向量表示 贝叶斯分类 特征权重 java

Abstract

Computer and network technology is developing rapidly, and are maturing, the Internet has increasingly become the most important source of information. Since the network has a lot of information is text information, as an effective organization and management of text data important basis for automatic text classification has become a field of study has important application value. Bayesian classification information is simple, effective, fast speed, one of the important contents of text classification. This article relates to the word of the text, vector text representation and feature weights critical computing technologies. Bayesian model for text classification then carried out a detailed study, analysis and implementation. In eclipse using java language platform based on a Bayesian classification information. Conclusion that Bayesian Information classification accuracy by experimental comparison.

Key Words:Text Categorization; Vector representation; Bayesian classifier;Feature weight;java

摘 要 4

Abstract I

第一章 绪 论 2

1.1课题研究背景 2

1.2贝叶斯文本分类技术 3

1.3本文的工作 4

1.4 本文的结构 4

第二章 信息分类的理论和方法 6

2.1文本分类的过程 6

2.2常见的几种文本分类方法 6

2.2.1 Rocchio算法 6

2.2.2 贝叶斯分类算法和决策树算法 7

2.2.3 K-近邻算法 9

2.2.4神经网络算法 10

第三章 基于贝叶斯的信息分类的原理 12

3.1分类器学习方法介绍 13

3.2 算法的伪代码及流程 14

第四章 贝叶斯分类系统训练和分类算法 16

4.1 数据结构设计 17

4.2UI界面设计 17

4.3贝叶斯方法的实现 21

第五章 分类算法实验和分析 27

5.1效果演示 27

5.2实验数据分析 28

第六章 结论与展望 30

参考文献 31

第一章 绪 论

1.1课题研究背景

中国互联网络信息中心(CNNIC)在2011年1月19日发布声明:截至2010年12月底,中国有4.5亿人使用网络资源,与2009年相比,增加了7000多万,可见如今,网络技术的飞速发展。互联网普及率高达34.3%。由此可见人们如今主要信息获取方式就是通过网络。而这些信息又有大量的都是以文本的形式存在,如此巨大的数额的信息如何有效的组织和管理,已经成为人们急需解决的问题。贝叶斯分类是基于概率和统计方法。贝叶斯分类方法的前提条件是假设事件具备独立性,贝叶斯分类方法适用于多属性分类任务,因此贝叶斯文本分类已成为一种常用的分类方法。贝叶斯分类方法是一个简单并且非常有效的概率分类方法。

国外学者对文本分类理论的研究可以追溯到上个世纪50年代开始,文本分类的发展大致可以主要划分为四个阶段:

第一阶段(1958-1964):主要对文本自动分类可行性进行探索性研究。

第二阶段(1965-1975):针对文本分类进行一系列实验,以研究各种分类的可行性及优劣。

第三阶段(1975-1989):在实际的生活中,运用文本的自动分类;例如各大网站的新闻分类,垃圾邮件识别;

第四阶段(1990年至今):将文本分类的过程与互联网大数据技术相结合。

和国外的研究相比,国内学者对文本自动分类技术的研究起步相对较晚一些,

20世纪80年代,基于知识工程方法的基础上,在分类领域专家的经验,主要是人工提取基于逻辑规则,作为计算机文本分类文本分类系统。进入20世纪90年代后,基于机器学习分类这种方法的重要性日益增加具有稳定性和准确性方面明显的优势。该系统使用训练样本的特征选择和分类器类型确定,获得最终的分类结果。目前,基于概率统计学的机器学习文本技术日趋成熟,这种技术被广泛应用于各大系统。包括基于概率方法的贝叶斯分类器,基于实例基础上的K近邻分类,基于支持向量机学习理论和结构风险最小化原则统计的方法。还有其他分类方法,包括线性分类,回归模型,神经网络,决策树方法等。短文本的文本自动分类是信息检索和很多其他领域的重要基础。分类的任务是通过集合机器学习获得所需的目标函数,并且获得分类模型,每个属性被映射到预先定义好的分类系统,文本自动分类可以较好地解决文本信息量过大的问题,可以应用于很多方面,如组织文献,文字识别,智能搜索,邮件过滤。因此,文本分类的研究在很多领域都具有非常重要的实用价值和意义。

1.2贝叶斯文本分类技术

贝叶斯定理是随机事件和概率的条件定理。人们做出基于不确定推理和估计这种推理的结论的概率所需信息的决定被称为概率推理。概率推理概率逻辑,以及心理学的研究领域都有研究,但他们的研究视角是不同的。概率逻辑,科学和研究是客观的概率估计公式或规则;而心理学主要研究人的主观估计概率并且研究人的认知过程。贝叶斯推理问题是基于条件概率的大前提,这方面的探索为人们揭示认知过程和规律的概率信息,对指导人们有效的学习和判断决策具有极其重要的理论和实践意义。

贝叶斯分类算法是一种统计概率,它是一种使用统计知识分类算法。在许多情况下,朴素贝叶斯与决策树和神经网络分类算法可比分类算法,该算法可以应用于大型数据库,并且该方法是简单,快度,分类的准确率高。

请支付后下载全文,论文总字数:20238字

您需要先支付 50元 才能查看全部内容!立即支付

微信号:bysjorg

Copyright © 2010-2022 毕业论文网 站点地图