无监督算法研究开题报告

2020-04-16 13:38:23

1. 研究目的与意义（文献综述）

现实生活中常常会有这样的问题：（1）缺乏足够的先验知识，因此难以人工标注类别;（2）进行人工类别标注的成本太高。很自然地，我们希望计算机能代我们(部分)完成这些工作，或至少提供一些帮助。无监督算法在处理此类问题上极为重要，我们要做的无监督学习就是按照他们的性质把他们自动地分成很多组，每组的问题是具有类似性质的（比如数学问题会聚集在一组，英语问题会聚集在一组，物理........）。所有数据只有特征向量没有标签，但是可以发现这些数据呈现出聚群的结构，本质是一个相似的类型的会聚集在一起。把这些没有标签的数据分成一个一个组合，就是聚类（clustering）。比如google新闻，每天会搜集大量的新闻，然后把它们全部聚类，就会自动分成几十个不同的组（比如娱乐，科技，政治......），每个组内新闻都具有相似的内容结构。常见的应用背景包括：（1）一从庞大的样本集合中选出一些具有代表性的加以标注用于分类器的训练。（2）先将所有样本自动分为不同的类别，再由人类对这些类别进行标注。（3）在无类别信息情况下，寻找好的特征。

需要说的是，相比有限的监督学习数据，自然界有无穷无尽的未标注数据。我们希望人工智能可以从庞大的自然界自动去学习，无监督学习，成为了当前最有前景的研究领域。ian goodfellow在2014年提出生成对抗网络后，该领域越来越火，成为16年研究最火热的一个领域之一。
生成对抗网络的一个简单解释如下：假设有两个模型，一个是生成模型（generative model，下文简写为g），一个是判别模型（discriminative model，下文简写为d），判别模型(d)的任务就是判断一个实例是真实的还是由模型生成的，生成模型(g)的任务是生成一个实例来骗过判别模型（d），两个模型互相对抗，发展下去就会达到一个平衡，生成模型生成的实例与真实的没有区别，判别模型无法区分自然的还是模型生成的。

yann lecun也提出，“用预测学习来替代无监督学习”,预测学习通过观察和理解这个世界是如何运作的，然后对世界的变化做出预测，机器学会了感知世界的变化，然后对世界的状态进行了推断。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容与方案

目前深度学习中的无监督学习主要分为两类，一类是确定型的自编码方法及其改进算法，其目标主要是能够从抽象后的数据中尽量无损地恢复原有数据，一类是概率型的受限波尔兹曼机及其改进算法，其目标主要是使受限玻尔兹曼机达到稳定状态时原数据出现的概率最大。

确定型无监督学习主要有自编码及稀疏自编码、降噪自编码等。

概率型无监督学习的典型代表就是限制玻尔兹曼机，限制玻尔兹曼机是玻尔兹曼机的一个简化版本，可以方便地从可见层数据推算出隐含层的激活状态。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 研究计划与安排

第1~2周：翻译外文资料，初步确定方案；

第3周：确定最终方案，进行可行性分析，完成开题报告；

第4~6周：做中期报告，完成系统整体设计；

第7~9周：软件设计及程序代码的编制(结合自己设计的内容可适当修改)；

第10~11周：综合调试，根据结果完善系统；

第12~13周：撰写论文；

第14周：论文装订、评阅，论文答辩。

4. 参考文献（12篇以上）

[1] 周志华, 王珏. 机器学习及其应用[M]. 清华大学出版社, 2007.
[2] 陈凯, 朱钰. 机器学习及其相关算法综述[J]. 统计与信息论坛, 2007, 22(5):105-112.
[3] Dietterich T G. Ensemble Methods in Machine Learning[M]// Multiple Classifier Systems. Springer Berlin Heidelberg, 2000:1-15.
[4] Robert C. Machine Learning, a Probabilistic Perspective[J]. Chance, 2014, 27(2):62-63.
[5] Hofmann T. Unsupervised Learning by Probabilistic Latent Semantic Analysis[J]. Machine Learning, 2001, 42(1-2):177-196.
[6] Sanger T D. Optimal unsupervised learning in a single-layer linear feedforward neural network.[J]. Neural Networks, 1989, 2(6):459-473.
[7] 王珏, 石纯一. 机器学习研究[J]. 广西师范大学学报(自然科学版), 2003, 21(2):1-15.
[8] Leordeanu M, Hebert M. Unsupervised learning for graph matching[C]// Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on. IEEE, 2009:864-871.
[9] 孙吉贵, 刘杰, 赵连宇. 聚类算法研究[J]. 软件学报, 2008, 19(1):48-61.
[10] 方开泰. 聚类分析(Ⅰ)[J]. 数学的实践与认识, 1982(2):55-63.
[11] 孙即祥. 现代模式识别[M]. 高等教育出版社, 2008.
[12] 张智星. 神经--模糊和软计算[M]. 西安交通大学出版社, 2000.
[13] 焦李成. 神经网络系统理论[M]. 西北工业大学出版社, 1990.
[14] 张蓉. 数据聚类技术的研究[J]. 计算机工程与应用, 2002, 38(16):145-147.
[15]贺玲, 蔡益朝, 杨征. 高维数据聚类方法综述[J]. 计算机应用研究, 2010, 27(1):23-26

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付

注册

找回密码