登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 开题报告 > 理工学类 > 统计学 > 正文

基于基因表达数据的Cox模型开题报告

 2022-01-13 21:56:42  

全文总字数:2887字

1. 研究目的与意义及国内外研究现状

从样本量数量较小,而基因数量庞大的数据中筛选出与所研究疾病相关的基因,分析生存数据的最经典模型——cox模型变得不再适用,且众多基因之间往往存在程度不一的相关性。虽然经典的lasso法可以实现高维数据的变量选择和系数估计,较好地处理cox模型的变量选择问题,但是该方法采用的是对所有的变量施加相同程度的惩罚,导致得到的估计量往往是有偏的,并对于强相关变量的处理效果较差。为得到更加精确的稀疏化模型,需要选用合适方法应用到cox风险比例回归模型,从而得到更合乎实际的模型,为今后高维生存数据分析提供了参考,旨在利用基因表达数据中,选出与疾病相关的基因,确定具有稀疏的系数结构的最终模型

本文将以乳腺癌基因数据为例,选用最新颖的adaptive elastic net方法,应用于cox比例风险回归模型,已达到研究乳腺癌病人基因表达和生存信息数据的目的,以115名乳腺癌患者信息为样本,意图找出影响患者生存期的重要基因因素。揭示乳腺癌患者死亡这一终点事件发生的时间与基因表达谱数据之间的关系,以供医疗专家有针对性的提出治疗措施。

国内外研究现状

d.r.cox于1972年提出了cox模型,是处理生存数据的最为常用的模型,此模型不要求固定的生存时间分布类型,可以利用删失数据所提供的的信息,对影响生存结局的变量进行多因素分析。但由于该模型要求样本个数大于预测变量数量,且要求自变量之间相互独立。然而随着数据量的急剧增加,高维、强相关生存数据的越来越常见。为克服此模型这一缺陷,统计学界已进行了孜孜不倦的探索。在基因表达数据中,基因之间往往存在着一定的相关性,对数据分析时,不得不不考虑多重共线性问题。tibshirani.r于1996年提出lasso方法,又称为l1惩罚,对所有回归系数进行一定的惩罚,是回归系数较小的自变量系数压缩为零;闫等人将lasso方法用于cox回归模型中,通过在系数绝对值上增加一个约束条件,处理高维度、强相关、小样本的生存资料,实现高维资料降维并得到拟合的模型;由于lasso方法对所有变量施加相同的惩罚,得到的估计量有偏,不能满足oracle性质,也不适合处理强相关变量,且最多筛选出n个变量,基于此,zou于2006年提出adaptive lasso方法,对自变量系数根据不同权重施加不同程度的惩罚,重要的变量更容易被保留,实现无偏估计且具有oracle性质;hao和wen于2007年将adaptivelasso方法应用于cox比例风险模型;zou和hastie于2005年提出弹性网elastic net,实现了在模型中选入更多强相关变量,又能很好的处理共线性问题;由于enet方法是基于lasso方法提出来的,同样无法满足oracle性质,基于此,zou和zhang于2009年提出了aenet方法,通过改进对回归系数的惩罚,对重要性不同的的变量系数赋予不同的权重,满足oracle性质;hasinur等将aent方法应用于处理生存数据的变量选择问题;赵海亮等于2017年、韦新星于2018年分别将adaptive elasti net方法应用于cox比例风险模型,得出此方法在基因表达数据或者是高维度且变量间存在较强相关性的生存分析数据中,解决维数灾难和多重共线性两个问题的效果明显优异于其他方法。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容

1基于删失的生存数据进行生存分析;

2超高维基因表达数据进行数据降维;

3选用合适方法筛选出显著影响的基因变量,选择最优参数,估计基因变量系数,得到回归模型。

3. 实施方案、进度安排及预期效果

论文课题的实施方案、进度安排及预期成果如下:

1、了解生存分析的相关概念以及所涉及的描述函数定义,了解函数之间的关系。

2、通过对生存数据的变量筛选、超高维数据的变量筛选方法的学习,对比不同方法的优劣从而确定最适合超高维生存数据的变量筛选方法

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献

[1]张景肖,李向杰,郭海明.hd-sis 超高维数据稳健变量筛选[j].统计与信息论坛,2016, 31(4):9-12.

[2]闫丽娜,覃婷,王彤.lasso方法在cox回归模型中的应用[j].中国卫生统计,2012,29(01):58-60 64.

[3]赵海亮. 自适应弹性网方法在cox模型中的应用[d].河北医科大学,2017.

剩余内容已隐藏,您需要先支付 5元 才能查看该篇文章全部内容!立即支付

微信号:bysjorg

Copyright © 2010-2022 毕业论文网 站点地图