基于变化熵的超高维数据特征筛选开题报告

2021-12-29 21:49:16

全文总字数：3572字

1. 研究目的与意义及国内外研究现状

当前社会环境下，由于网络技术等的发展和计算机存储功能增强，超高维数据变得越来越频繁，例如金融市场的数据，疾病诊断中的基因数据，邮件中的文本数据转化而成的超高维分类变量。由于高维数据存在的普遍性，使得对高维数据挖掘的研究有着非常重要的意义。

在实际涉及到高维数据处理的问题中，往往影响协变量的维数p是随着样本成指数增长的，一般情况下，要对p维协变量进行降维，选择出对因变量产生较大影响的重要变量，以此达到超高维数据降维的目的。本文主要基于变化熵j值提出一种变量降维方法，并进行数据模拟和实例分析。

数据降维，一方面可以解决“维数灾难”，缓解“信息丰富、知识贫乏”现状，降低复杂度，可以使用一些其他的统计方法如主成分分析等进行数据处理；另一方面可以更好地认识和理解数据，为进一步利用数据，挖掘数据中隐含的更深层次的信息提供便利，在现实生活中有重要的意义。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容

本课题基于变化熵-j值提出一种新的超高维数据降维方法，记为j-sis。首先，在文中证明了该数据筛选方法的正确性，从理论上该方法是可行的。

其次，用r软件进行蒙特卡洛模拟，产生500个具有p维协变量的样本，其中d个与因变量相关的，对样本进行筛选，选择出重要变量与实际情况比较，分析该方法的效果。

然后，利用模拟出的样本，采用其他的特征筛选方法(如ig-sis)进行特征筛选，将结果与本文提出的方法筛选出的结果进行比较。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 实施方案、进度安排及预期效果

实行方案：

1. 阅读大量的文献成果，总结研究进展情况，找出以前研究的不足和避免研究内容的重复性。

2. 对国内与国外相关文献进行分析，对研究内容方法原理、思想内容等各方面进行比较，总结出不同的特点，提出本文的研究主要内容和研究方法。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 参考文献

[1]http://baike.baidu.com/link?url=n6b_whyg4qhmrgfxz7xbgctthgrvhyeeehghmdt-vwzwbdl4qyzldehb8d1bk91rwgfx4avhyisu5t5oueyas6i4q1imcd1gwndoxagvcorol6ekxdpkczso6khdq6pjfsw44h8h8thd2rjbib2fvq,高维数据挖掘，百度百科，2016.12.26

[2]lyu nifangfang，entroy-based model-free feature screening for ultrahigh-dimensional multiclass classification,http://dx.doi.org/10.1080/10485252.2016.1167206,2016.12.27

[3]huang,d.,li,r.,and wang,h(2014),’feature screening for dimensional categorical data with applications’,journal of business and economics statistics,32,237-244.

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付

注册

找回密码