基于特征选择的K-means聚类方法研究开题报告

2022-01-13 21:36:56

全文总字数：7472字

1. 研究目的与意义及国内外研究现状

选题目的：聚类分析的应用越来越广泛，发挥的作用也越来越重要。因此，效率更快、正确率更高的聚类分析算法显得十分必要。聚类分析通常需要处理大量、高维的样本数据，为了提高聚类分析的效率，对数据预先进行处理，减少样本数据的维数，过滤掉样本数据的冗余特征是十分必要的步骤，通常使用特征选择算法来达到这一目的。同时，为了提高聚类分析的准确率，将聚类分析算法结合一些智能算法或者将算法进行一些改进，以达到更好的聚类效果。

选题意义：随着现代科技的发展、信息的高速膨胀，人们开始关注如何从这些数据中获取有效信息，从而做出相应的对策。但是，这些海量数据往往带来数据分析的效率瓶颈，同时，获取数据的多源化导致数据的非结构化问题，使得依靠专业知识和经验的经典分类方法已经远远不能满足实际需求。因此，如何从海量数据中提取有效信息在信息处理领域十分重要。由于对象的复杂性，仅凭专业知识有时候不能确切的分类，随着多元统计技术的发展和计算机技术的普及，利用数学方法进行更科学的分类显得十分必要而且完全可能。近年来，数值分类学逐渐形成了一个新的分支，称为聚类分析，聚类分析适用于很多不同类型的数据集合。随着科技的发展，聚类分析已经在许多领域得到了广泛的应用，如经济学、统计学、生物工程、机器学习、数据挖掘、文本分析等。利用聚类分析可以科学有效的将庞大、高维的数据进行有效的选择和分类，最终达到降维的目的。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容

1、特征选择。采用过滤式无监督特征选择算法中的主成分分析法(pca)算法进行特征选择。掌握pca算法的原理和步骤。

2、聚类分析算法。学习聚类分析算法的基本概念和分类，以及样本之间相似度的距离度量。对k-means算法的聚类过程进行简介，然后分析该算法的优缺点。并针对k-means算法对初始聚类中心点敏感的缺点，提出通过计算样本间的距离求出每个样本的密度参数，通过密度参数选区出更合适的初始聚类中心的改进方法。将改进后的算法和之前的算法进行实验，比较两者的聚类准确度。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 实施方案、进度安排及预期效果

2018年12月27日至2019年1月13日：论文定题，论文导师下达任务书；

2019年1月14日至2019年2月3日：查阅相关文献、期刊，确定研究方法和内容，提交任务书；

2019年2月10日至2019年2月23日：开题，撰写论文大纲，完成开题报告，学习论文算法；

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 参考文献

[1] 陈新泉,聚类算法中的优化方法应用.成都:电子科技大学出版社,2014

[2] 邢长征, 谷浩. 基于平均密度优化初始聚类中心的k-means算法[j]. 计算机工程与应用, 2014.50(20)

[3] 毛勇,周晓波,夏铮,尹征,孙优贤,特征选择算法研究综述.模式识别与人工智能 , 2007.20(2)

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付

注册

找回密码