皮肤系统癌基因差异表达生物信息学分析毕业论文
2021-11-06 23:03:50
摘 要
皮肤癌是全球范围内一种常见的癌症,且患者数量正在不断上升中。本课题利用生物信息学方法分析皮肤黑色素瘤和基底细胞癌中的差异表达基因,寻找可靠的预后标志物。这对改善这两种癌症的预后手段和探索潜在发病机制具有重要意义。
本研究在GEO上获取基因表达谱,利用在线韦恩图工具筛选癌症样本与正常样本之间的差异表达基因。之后用DAVID工具进行GO和KEGG富集分析。接着使用STRING工具和Cytoscape软件构建蛋白质—蛋白质相互作用网络。最后,使用GEPIA网站分析筛选出的核心基因。
结论:本研究发现了3个在皮肤黑色素瘤中高表达的基因(EDNRB、MITF和TYR)且导致了该癌症病人有较差的存活率。它们可能是该癌症的潜在预后标志物。在基底细胞癌研究中,本课题筛选出了5个在基底细胞中高表达的基因(CDC20、CCNB1、BUB1B、RRM2和DLGAP5),这些基因在多种癌症中高表达且导致了这些癌症中较差的存活率。它们可能作为基底细胞癌的潜在预后标志物。
关键词:差异表达基因;皮肤黑色素瘤;基底细胞癌;生物信息学分析
Abstract
Skin cancer is one common cancer globally, and the number of patients is constantly rising. Our study used bioinformatics methods to analyze differentially expressed genes in skin cutaneous melanoma and basal cell carcinoma, looking for reliable prognostic markers. It’s of great significance for improving the prognostic methods and exploring potential pathogenesis of the cancers.
The project obtained the gene expression profiles on GEO, and screened for DEGs between skin cancer samples and normal samples with online Venn tools. The DAVID website was used for GO and KEGG enrichment analysis. Then, protein-protein interaction network was built by STRING and Cytoscape. Finally, we use the GEPIA website to analyze the screened core genes.
Conclusion: The research found 3 genes (EDNRB, MITFamp;TYR) which are highly expressed and result in poor survival in skin cutaneous melanoma. The genes may be potential prognostic markers for the cancer. In the study of basal cell carcinoma, the project screened 5 genes (CDC20, CCNB1, BUB1B, RRM2amp;DLGAP5) that are highly expressed in basal cell carcinoma. The genes are also highly expressed and lead to poor survival in varieties of cancers. They may be potential prognostic markers in basal cell carcinoma.
Key words: differentially express genes, skin cutaneous melanoma, basal cell carcinoma, bioinformatics analysis
目 录
第1章 绪论 1
1.1 皮肤癌 1
1.1.1 皮肤癌的致癌因子 1
1.1.2 皮肤癌分类 1
1.1.3 皮肤癌的病例分布 2
1.1.4 皮肤癌的检测 2
1.1.5 皮肤癌的治疗 2
1.2 生物信息学在癌症诊疗上的应用 3
1.3 研究目标、内容及意义 3
1.3.1 研究目标 3
1.3.2 研究内容 3
1.3.3 研究意义 4
第2章 研究方法 5
2.1 基因表达谱芯片数据的获取 5
2.2 差异表达基因数据的处理 5
2.3 GO和KEGG通路富集分析 6
2.4 PPI网络分析 6
2.5 皮肤黑色素瘤中核心基因的生存分析及相关性分析 6
2.6 基底细胞癌中Hub基因差异表达热图的绘制 6
第3章 皮肤黑色素瘤的基因分析结果与讨论 8
3.1 皮肤黑色素瘤中DEGs的鉴定 8
3.2 皮肤黑色素瘤中DEGs的GO和KEGG富集分析 9
3.3 皮肤黑色素瘤中DEGs的PPI网络及模块分析 11
3.4 通过GEPIA分析皮肤黑色素瘤的核心基因 11
3.5 皮肤黑色素瘤中核心基因的KEGG通路的绘制 13
3.6 讨论 14
3.7 小结 16
第4章 基底细胞癌的基因分析结果与讨论 17
4.1 基底细胞癌中DEGs的鉴定 17
4.2 基底细胞癌中DEGs的GO和KEGG富集分析 19
4.3 基底细胞癌中PPI网络及模块分析 21
4.4 PPI网络中模块的KEGG的重分析 22
4.5 Hub基因在30种癌症及正常样本中的表达分析 23
4.6 讨论 24
4.7 小结 25
第5章 结论与展望 26
5.1 结论 26
5.2 展望 26
参考文献 28
致 谢 32
第1章 绪论
1.1 皮肤癌
皮肤系统是将人体内环境与外界隔开的屏障之一,皮肤癌是发生在皮肤系统上的一类癌症的总称,根据肿瘤细胞来源不同和肿瘤形态可分为多种类型。在全球范围内,皮肤癌患者数量近一段时间以来呈上升趋势。关于皮肤癌的研究主要在探究皮肤癌风险因素、分布现状、检测与治疗等方面。
1.1.1 皮肤癌的致癌因子
皮肤长期接触外界不良因素,因此皮肤癌的形成的原因是多样化的:(1)紫外线照射。一般认为,紫外线照射是引起大多数皮肤癌的主要原因[1]。紫外线照射在皮肤上会引起皮肤细胞DNA损伤。当DNA损伤累积到一定程度时,皮肤细胞可发生癌变。长时间暴露在阳光下可以引发皮肤癌,且紫外线的致癌风险会随着年龄累积。其他能够增加皮肤吸收紫外线的量的因素都会增加患癌风险。浅色皮肤黑色素含量相比深色皮肤黑色素含量较少,这会导致肤色较浅的人有较高的患癌风险,白化病患者因缺乏黑色素,他们的风险尤其高。(2)化学物质刺激。砷、煤焦油和吸烟产生的化学物质等也会导致患皮肤癌的风险。(3)免疫力下降。免疫系统监视能力下降减少了癌细胞的清除率。(4)人乳头状瘤病毒感染。这可引起生殖器和肛门区域的皮肤癌[2]。(5)痣。黑色素细胞生成,通常是良性的,但是长期刺激也会提高患癌风险。在分子层面上, p53肿瘤抑制子基因经常在各种皮肤癌细胞中被检测到突变[3]。
1.1.2 皮肤癌分类
皮肤癌有基底细胞癌(Basal Cell Carcinoma,BCC)、鳞状细胞癌(Squamous Cell Carcinoma,SCC)、皮肤黑色素瘤(Skin Cutaneous Melanoma,SKCM)、默克尔细胞癌(Merkel Cell Carcinoma,MCC)和光化性角化病(Actinic Keratosis,AK)等。前三者为最主要的皮肤癌症。非黑色素细胞癌(Non-melanoma Skin Cancer,NMSC)包括前二者,非黑色素瘤是迄今为止被诊断的最多的癌症。三种皮肤癌症存在着一些不同。基底细胞癌是由表皮底部的基底细胞癌变产生的,好发于面部和头颈部等常暴露于阳光下的区域,基底细胞癌在非黑色素瘤中占据70%,但其病死率较低[4]。鳞状细胞癌是由表皮外层的扁平细胞癌变产生的,同样好发于头颈部和手背等暴露于阳光下的部位,也会出现在疤痕部位上,易发生转移,鳞状细胞癌占非黑色素瘤的25%,但是其死亡率相比基底细胞癌较高[4]。皮肤黑色素瘤由表皮层的黑色素细胞癌变产生,与非黑色素瘤不同,黑色素瘤可出现在皮肤的任一区域,但出现在男性躯干部和女性腿部的几率会更大一些。皮肤黑色素瘤的病死率在多种皮肤癌症中是最高的[5]。目前的研究指出三种癌症中经常发生突变的基因分别是基底细胞癌中的TP53基因、鳞状细胞癌中的PTCH基因与皮肤黑色素瘤中的BRAF和KIT基因[6]。
1.1.3 皮肤癌的病例分布
三种常见的的皮肤癌是任何形式的癌症中全球发生率最高的疾病之一[7]。在2018年,世界上185个国家中新增皮肤癌病例约133万例,占当年所有新增癌症病例的7.4%。其中非黑色素瘤占比78%,皮肤黑色素瘤占比22%。病死约12.6万例,占当年所有因癌症死亡病例的1.3%,其中非黑色素瘤占比52%,皮肤黑色素瘤占比48%。调查显示,来自欧洲和北美地区的皮肤癌新增病例在总新增病例中较多,约占76%[8]。这可能和当地肤色浅的人较多有关[9]。然而,病死率和新发病率在地区之间不同步,这可能是地区医疗资源不平衡造成的。
1.1.4 皮肤癌的检测
皮肤癌发生后病灶部位会出现表征变化,所以皮肤癌的早期检测主要是裸眼观察其表征[7]。不同的皮肤癌症其表征不同:基底细胞癌亚型表征多变,结节型常呈现为粉红色或白色结节,浅层型常呈现为边缘清晰的红斑以及色素沉着型常为不规则着色突起。鳞状细胞癌表征变化也比较多,一般是皮肤上直径较大(大于1 cm)、久不愈合的角化区域或者鳞状板块,该区域及周围皮肤常突起。皮肤黑色素瘤常为非对称、边缘不规则、颜色出现变化、直径大于6mm且在扩展的区域,皮肤黑色素瘤颜色多变,少部分呈无色难以判断[10]。皮肤癌的进一步诊断则需要进行组织病理学检查。一般对皮肤癌患者进行皮肤镜检查、反射共聚焦显微镜和AI辅助诊断等,或者取病灶组织活检,而非黑色素瘤中的鳞状细胞癌患者还要追加淋巴结节检查以确定癌症转移风险。此外,还有多光子显微镜和拉曼光谱仪等先进工具[11][12]。miRNA和p63检测技术未来也可作为皮肤癌诊断的技术[13][14]。
1.1.5 皮肤癌的治疗
皮肤癌的治疗方案除了传统的冷冻治疗、刮除术、放射和化学疗法等外,对于非黑色素瘤,有激光治疗、5-盐酸氨酮戊酸光动力疗法和基因治疗等新技术和联合疗法[15][16]。对于皮肤黑色素瘤,ipilimumab等局部免疫调节剂疗法、针对皮肤黑色素瘤细胞的BRAF抑制剂和MEK抑制剂、纳米靶向载药系统和miRNA等一系列新型治疗手段也被开发出来[17][18]。
1.2 生物信息学在癌症诊疗上的应用
随着计算机和互联网技术的发展,以计算机为平台而对生物基因、蛋白质等其他生物大分子的信息进行研究的生物信息学也迅速得到了发展[19]。生物信息学收集和加工大量生物学信息并将其储存在在线或线下数据库中,从中提取有效数据进行大规模分析获得有价值的信息[20]。在癌症领域,胃癌、卵巢癌和肺癌等多种癌症的诊疗已广泛的使用生物信息学方法。研究者们采集癌症患者病灶部位的样本或正常部位样本,通过基因芯片技术获得其转录组等基因表达信息,通过对不同的样本信息进行综合和对比,分析差异表达基因(Differentially Express Genes,DEGs)从而确定癌症的标志物用于诊断,或者为肿瘤治疗提供新的靶点。目前的一些生物信息学研究揭示了大约140个可以促进癌症发生的突变基因,它们中的一些在细胞命运、细胞生存和基因组维持中起着重要作用[21]。
1.3 研究目标、内容及意义
1.3.1 研究目标
从在线数据库中筛选与皮肤黑色素瘤和基底细胞癌相关的核心基因进行分析,为皮肤黑色素瘤和基底细胞癌的标志物检测、预后评判和治疗手段提供新的靶点和方向。主要包括:鉴定皮肤黑色素瘤和基底细胞癌细胞中共有的DEGs;皮肤黑色素瘤和基底细胞癌的DEGs的基因本体(Gene Ontology,GO)功能注释和京都基因和基因组百科全书(Kyoto Encyclopedia Gene and Genome,KEGG)通路富集分析;鉴定皮肤黑色素瘤和基底细胞癌中DEGs的核心基因;核心基因的生存分析及相关性分析。
1.3.2 研究内容
在对皮肤黑色素瘤的基因分析中,该课题通过选取在线数据库中的关于皮肤黑色素瘤和正常样本的基因芯片数据进行分析,鉴定上调和下调的DEGs。通过在线工具分析上调基因和下调基因在GO功能和KEGG通路中富集的程度。通过在线数据库建立蛋白质—蛋白质相互作用(Protein-Protein Interaction,PPI)网络分析与皮肤黑色素瘤发生与发展相关的核心基因,从中建立蛋白联系紧密的模块。在核心基因的生存分析及相关性分析中,通过在线数据库分析核心基因对皮肤黑色素瘤患者的生存率的影响并绘制了这些核心基因的KEGG通路图。
在对基底细胞癌的基因分析中,该课题通过选取在线数据库中的关于基底细胞癌和正常样本的基因芯片数据进行分析,鉴定上调和下调的DEGs。通过在线工具分析上调基因和下调基因在GO功能和KEGG通路中富集的程度。通过在线数据库建立蛋白质—蛋白质相互作用(Protein-Protein Interaction,PPI)网络分析与基底细胞癌相关的核心基因,从中建立联系紧密的模块并筛选Hub基因。在核心基因的相关性分析中,通过在线数据库分析核心基因对其他癌症患者的生存率的影响并预测这些基因在基底细胞癌中是否能作为标志物。
1.3.3 研究意义
生物信息学方法已成为癌症研究领域的常用技术。掌握生物信息学方法,在大量的数据中综合有价值的线索,寻找可靠的癌症预后标志物,了解癌症发生的潜在机制和改善癌症治疗效果已成为当前热点。目前在皮肤癌领域,还有相当多的潜在差异基因尚待发现。对皮肤黑色素瘤和基底细胞癌采用生物信息学方法进行基因分析以寻找新的研究方向具有重要意义。
第2章 研究方法
2.1 基因表达谱芯片数据的获取
皮肤黑色素瘤是TCGA数据库所规定的33种主要癌症中的一种,有较多的临床数据供基因分析。因此主要目的是寻找差异基因与皮肤黑色素瘤病人存活率之间是否存在联系,以发现潜在的预后物。来自NCBI的Gene Expression Omnibus(GEO,https://www.ncbi.nlm.nih.gov/geo/)是一个上万个基因表达谱芯片数据的免费公共数据库。从GEO上获得同时具有皮肤黑色素瘤组织样本和正常皮肤组织样本的基因表达谱集GSE3189、GSE15605和GSE100050(所有皮肤黑色素瘤样本均为原发性肿瘤)。GSE3189采用GPL96平台,具有45个皮肤黑色素瘤组织样本和7个正常皮肤组织样本;GSE15605采用GPL570平台,具有46个皮肤黑色素瘤组织样本和16个正常皮肤组织样本;GSE100050采用GPL570平台,具有6个皮肤黑色素瘤组织样本和6个正常皮肤组织样本。