一种改进的k-means聚类算法任务书
2020-04-10 16:11:59
1. 毕业设计(论文)主要内容:
目标简介:聚类算法是一种典型的无监督学习算法,主要用于将相似的样本自动归到一个类别中。在聚类算法中,k-means算法是最简单也是最经典的一种聚类算法,它的主要思想是随机选择k个对象,每个对象代表一个聚类的质心。对于其余的每一个对象,根据该对象与各聚类质心之间的距离,把它分配到与之最相似的聚类中。然后,计算每个聚类的新质心。重复上述过程,直到准则函数收敛。传统的k-means算法除了要事先确定簇数k和对初始聚类中心敏感外,经常以局部最优结束,同时对“噪声”和孤立点敏感,并且该方法不适于发现非凸面形状的簇或大小差别很大的簇,因此,本课题拟设计一种改进的k-means聚类算法,力求解决以上问题。
设计内容:
2. 毕业设计(论文)主要任务及要求
1、 查阅15篇相关文献(含2篇外文),并每篇书写200—300字文献摘要(装订成册,带封面);
2、 认真填写周记,完成800字开题报告;
3、 完成5000中文字以上的相关英文专业文献翻译,并装订成册(中英文一起,带封面);
3. 毕业设计(论文)完成任务的计划与安排
1、 2018/1/14—2018/3/5:确定选题,查阅文献,外文翻译和撰写开题报告;
2、 2018/3/6—2018/4/30:系统架构、程序设计与开发、系统测试与完善;
3、 2018/5/1—2018/5/25:撰写及修改毕业论文;
4. 主要参考文献
[1] hartigan j a, wong m a. algorithm as 136: a k-means clustering algorithm[j]. journal of the royal statistical society. series c (applied statistics), 1979, 28(1): 100-108.
[2] arthur d, vassilvitskii s. k-means : the advantages of careful seeding[c]//proceedings of the eighteenth annual acm-siam symposium on discrete algorithms. society for industrial and applied mathematics, 2007: 1027-1035.
[3] banerjee a, ghosh j. frequency-sensitive competitive learning for scalable balanced clustering on high-dimensional hyperspheres[j]. ieee transactions on neural networks, 2004, 15(3): 702-719.