无监督算法研究开题报告
2020-04-16 13:38:23
1. 研究目的与意义(文献综述)
现实生活中常常会有这样的问题:(1)缺乏足够的先验知识,因此难以人工标注类别;(2)进行人工类别标注的成本太高。很自然地,我们希望计算机能代我们(部分)完成这些工作,或至少提供一些帮助。无监督算法在处理此类问题上极为重要,我们要做的无监督学习就是按照他们的性质把他们自动地分成很多组,每组的问题是具有类似性质的(比如数学问题会聚集在一组,英语问题会聚集在一组,物理........)。所有数据只有特征向量没有标签,但是可以发现这些数据呈现出聚群的结构,本质是一个相似的类型的会聚集在一起。把这些没有标签的数据分成一个一个组合,就是聚类(clustering)。比如google新闻,每天会搜集大量的新闻,然后把它们全部聚类,就会自动分成几十个不同的组(比如娱乐,科技,政治......),每个组内新闻都具有相似的内容结构。常见的应用背景包括:(1)一从庞大的样本集合中选出一些具有代表性的加以标注用于分类器的训练。(2)先将所有样本自动分为不同的类别,再由人类对这些类别进行标注。(3)在无类别信息情况下,寻找好的特征。
需要说的是,相比有限的监督学习数据,自然界有无穷无尽的未标注数据。我们希望人工智能可以从庞大的自然界自动去学习,无监督学习,成为了当前最有前景的研究领域。ian goodfellow在2014年提出生成对抗网络后,该领域越来越火,成为16年研究最火热的一个领域之一。
生成对抗网络的一个简单解释如下:假设有两个模型,一个是生成模型(generative model,下文简写为g),一个是判别模型(discriminative model,下文简写为d),判别模型(d)的任务就是判断一个实例是真实的还是由模型生成的,生成模型(g)的任务是生成一个实例来骗过判别模型(d),两个模型互相对抗,发展下去就会达到一个平衡,生成模型生成的实例与真实的没有区别,判别模型无法区分自然的还是模型生成的。
yann lecun也提出,“用预测学习来替代无监督学习”,预测学习通过观察和理解这个世界是如何运作的,然后对世界的变化做出预测,机器学会了感知世界的变化,然后对世界的状态进行了推断。
2. 研究的基本内容与方案
确定型无监督学习主要有自编码及稀疏自编码、降噪自编码等。
概率型无监督学习的典型代表就是限制玻尔兹曼机,限制玻尔兹曼机是玻尔兹曼机的一个简化版本,可以方便地从可见层数据推算出隐含层的激活状态。
3. 研究计划与安排
第3周: 确定最终方案,进行可行性分析,完成开题报告;
第4~6周: 做中期报告,完成系统整体设计;
第7~9周: 软件设计及程序代码的编制(结合自己设计的内容可适当修改);
第10~11周:综合调试,根据结果完善系统;
第12~13周:撰写论文;
第14周:论文装订、评阅,论文答辩。
4. 参考文献(12篇以上)
[2] 陈凯, 朱钰. 机器学习及其相关算法综述[J]. 统计与信息论坛, 2007, 22(5):105-112.
[3] Dietterich T G. Ensemble Methods in Machine Learning[M]// Multiple Classifier Systems. Springer Berlin Heidelberg, 2000:1-15.
[4] Robert C. Machine Learning, a Probabilistic Perspective[J]. Chance, 2014, 27(2):62-63.
[5] Hofmann T. Unsupervised Learning by Probabilistic Latent Semantic Analysis[J]. Machine Learning, 2001, 42(1-2):177-196.
[6] Sanger T D. Optimal unsupervised learning in a single-layer linear feedforward neural network.[J]. Neural Networks, 1989, 2(6):459-473.
[7] 王珏, 石纯一. 机器学习研究[J]. 广西师范大学学报(自然科学版), 2003, 21(2):1-15.
[8] Leordeanu M, Hebert M. Unsupervised learning for graph matching[C]// Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on. IEEE, 2009:864-871.
[9] 孙吉贵, 刘杰, 赵连宇. 聚类算法研究[J]. 软件学报, 2008, 19(1):48-61.
[10] 方开泰. 聚类分析(Ⅰ)[J]. 数学的实践与认识, 1982(2):55-63.
[11] 孙即祥. 现代模式识别[M]. 高等教育出版社, 2008.
[12] 张智星. 神经--模糊和软计算[M]. 西安交通大学出版社, 2000.
[13] 焦李成. 神经网络系统理论[M]. 西北工业大学出版社, 1990.
[14] 张蓉. 数据聚类技术的研究[J]. 计算机工程与应用, 2002, 38(16):145-147.
[15]贺玲, 蔡益朝, 杨征. 高维数据聚类方法综述[J]. 计算机应用研究, 2010, 27(1):23-26
最新文档
- 性能优化的FRP护套用于钢筋混凝土框架的抗震改造外文翻译资料
- 圆形截面的FRP约束混凝土:审查和评估应力应变模型外文翻译资料
- FRP约束混凝土的轴向压缩行为:实验测试数据库和面向设计的新模型外文翻译资料
- 腐败与美国各州收入不平等之间的关系:来自专家小组的协整和误差修正模型的证据外文翻译资料
- 利用污泥和低质粉煤灰制备高强度陶粒外文翻译资料
- 表面活性剂改性疏水性Cu2O量子点作为高效钙钛矿太阳能电池顶部空穴传输材料外文翻译资料
- 内蒙古1962 – 2016年时间序列气候变量的变化特征外文翻译资料
- Nb 和 Ni 共掺杂 Mg(0001)氢解离扩散的理论研究:外文翻译资料
- 基于 Jetson Nano 深度学习平台的学生课堂学习评估系统—–学生的人脸检测与识别外文翻译资料
- UI 和 UE 设计技术及其在 HTML5 网站开发中的地位的研究外文翻译资料
- 皇后大道大桥——NEXT梁外文翻译资料
- 连续梁桥支座附近的波纹钢腹板抗剪性能评估外文翻译资料
- 在200至300℃的温度下纤维素的水热降解外文翻译资料
- 残差修正法在季节性ARIMA电力需求预测中的应用:以中国为例外文翻译资料
- 注蒸汽井中硅含量对水泥石抗压强度的影响外文翻译资料