基于模型平均的稳健超高维数据特征筛选研究开题报告
2022-01-07 22:12:52
全文总字数:3951字
1. 研究目的与意义及国内外研究现状
随着科技的发展,超高维数据在众多领域中出现,比如说医学、经济学以及社会学等等。在超高维数据中,协变量的维数p会随着样本量n变化的非常快,基本上呈现出指数增长,这就导致了计算成本大幅度增长以及预测精度降低等问题。超高维数据一般服从稀疏性假设,即只有部分协变量与响应变量之间有关联,这样一来,对超高维数据进行降维就成了对其进行分析必不可少的步骤。通过降维,对获得的重要变量进行分析可以使效率更高,分析预测更准确,结果也更有解释性。然而,现有的许多方法,比如说基于惩罚似然的传统变量选择方法:LASSO[1],SCAD[2],Adaptive-LASSO[3],Elastic Net[4]在超高维数据变量筛选中的表现并不是很好,其中LASSO和Adaptive-LASSO不能有效的处理整体效应[5],它们都是从一组相关变量中选取一个变量,从而忽视了其他变量。在这样一个大数据时代,为了更科学的对超高维数据进行分析,寻找更优的变量筛选方法是非常有必要的。
国内外研究现状
针对如何对超高维数据进行特征筛选这一问题,众多学者对其展开了研究。Fan和Lv[6]提出了基于Pearson相关系数的SIS模型方法。Li、Zhong 和Zhu[7]为了能在更一般的情况下对数据进行筛选,提出了基于距离相关系数的DC-SIS模型,进一步优化了SIS模型,实现了对分组预测变量和多元响应变量的直接筛选。He和Wang[8]提出了一种用于高维异构数据进行非线性变量筛选的分位自适应模型,此模型可以很自然地处理生存分析中的删失数据。Wu和Yin[9]提出了条件分位数筛选方法以适应超高维数据中常出现的异质性,这个方法处理删失数据很方便并且它不随着响应的单调变化而变化,所需要的条件也比其他的方法弱很多。Liu和Chen[10]在Wu和Yin[9]提出的条件分位数筛选方法的思想基础上提出了适用于完整的超高维异构数据的分位数独立性筛选方法。张景肖等人[11]提出了不涉及具体模型假设的一种模型释放的变量筛选方法HD-SIS,该方法对异常值有很强的抵抗能力,具有不错的稳定性。Chen和Liu[12]针对数据分布不均匀的情况提出了一种基于分位数距离相关系数的鲁棒性变量选取方法。针对超高维分类数据,Huang[13]提出了基于Pearso卡方的特征筛选方法。因为Huang[13]的筛选方法只适用于有限的情况,Ni和Fang[14]对其进行了改善,提出了调整的Pearson卡方特征筛选方法以及一种改进的参数调整方法。尽管上述的这些方法已经很大程度上改进了利用传统方法对超高维数据做分析的不足,但是其中很多方法只在某些情况下有比较好的表现,而对于重尾、含有异常点的数据类型,更稳健有效的特征筛选方法变得更有吸引力。2. 研究的基本内容
本文在wu和yin[9]提出的cqsis这一已经成熟的方法下进行了更加深入的研究。结合cqsis方法,受到模型平均思想的启发,例如:张新雨和邹国华[15],liang和zou[16],将其与条件分位数筛选方法相结合,利用选取的重要预测因子和响应变量之间的关系的条件分位数测度构造集平均权重定义加权重要性指标来筛选变量,实现对超高维数据的降维。
(1) 基于条件分位数筛选方法,结合模型平均思想定义加权重要变量筛选指标;
(2) 证明上述指标的科学性;
3. 实施方案、进度安排及预期效果
(1)2018年1月-2月:阅读相关文献并整理研究已有的超高维数据降维方法,之后构造新的降维方法并加以证明,收集实际超高维数据以便之后的实例分析;
(2)2018年3月-4月:根据构造的新的降维方法编写程序,完成蒙特卡洛模拟以及实例分析。
(4)2018年5月:整理结果,完成毕业论文的撰写与修改。
4. 参考文献
[1] tibshirani r. regression shrinkage andselection via the lasso[j]. journal of the royal statistical society, 2011,73(3):267-288.
[2] fan j, li r. variable selection vianonconvave penalized likelihood and its oracle properties[j]. journal of theamerican statistical association, 2001, 96(456):1348-1360.
[3] zou h. the adaptive lasso and itsoracle properties[j]. journal of the american statistical association, 2006,101(476):1418-1429.