当前呼吸系统学—对代谢组学呼吸分析中的数据预处理技术和机器学习的综述外文翻译资料
2021-12-28 23:00:29
英语原文共 20 页,支付完成后下载完整资料
当前呼吸系统学—对代谢组学呼吸分析中的数据预处理技术和机器学习的综述
摘要
人们将呼吸组学定义为代谢组学中呼出气体的研究。作为一个新兴代谢组学研究领域,呼吸组学致力于研究与健康有关的挥发性有机化合物(VOCs)。由于这些化合物的含量随人类健康状况发生变化,因此呼吸组学领域相关研究人员旨在通过研究VOCs实现开发并应用非侵入式的诊断工具。呼吸组学主要研究目的是找到与人体代谢异常(例如炎症)相关的VOCs变化机制。近年来,高分辨率、高通量的测量呼出气体中VOCs的分析方法已经得到广泛发展,然而机器学习方法在呼吸组学VOCs的特征文件——指纹图谱中的应用仍处于起步阶段。因此本文描述了当前呼吸组学数据的预处理以及多元统计分析的研究现状。文章从详细的预处理管道开始,这些管道用于来自气相色谱-质谱联用和多束毛细管柱-离子迁移谱联用检测得到的呼吸系统数据。数据预处理的结果是一个矩阵,其中包含在不同条件(例如疾病初期)下患者的某一组VOCs的相对丰度。可识别的VOCs可以通过几种现代机器学习技术(多元统计)给出,与具体的分析方法无关。本文同时论证了这些技术优缺点。
关键字
气相色谱-质谱联用(GC-MS),多束毛细管柱-离子迁移谱联用(MCC-IMS),呼出气体,多元统计分析,挥发性有机化合物(VOCs)
简介
寻找疾病特异性标志物(即生物标志物)已成为生物医学研究的重要领域。生物标志物发现的主要目的是开发某种工具,其能够在疾病前期指示出个体正从健康状态变为功能失调状态。在代谢组学领域,为了找到能够指示人体异常状态的生物标志物,人们常常研究生物流体、细胞或组织的分子组成,而呼出气体携带这些相关的生物介质信息,因此,研究呼出气体中的代谢物,即呼吸组学,能带来关于人体是否发生异常的有价值的信息。和其他类型的生物样本一样,呼出气体中能发现一系列不健康状态的生物标志物。呼出气体中可检测到的目标化合物是VOCs。它们来源于身体中正常和异常(例如炎症)的代谢过程。由于化学分析平台和模式识别技术的巨大进步,过去十年使用VOCs作为表征疾病是否发生或者作为疾病标志物的情况已经越来越多。通过这种工具,一种基于生物标志物的非侵入式呼吸分析方法即将成为现实。
一次简单的呼吸通常包含了成千上万的VOCs,因此,呼吸组学里产生的数据在数量上十分庞大,在生物性能上非常复杂。同时目前随着硬件成本的降低以及分辨率、通量的增加,数据正处在爆炸性增长阶段。呼出气中除了内源性形成和代谢化合物,还含有来自环境成分的外源性化合物。这些外源性化合物来自吸入后又被呼出的环境成分或者是来自病毒和细菌。这就意味着呼吸组学数据包含各种各样来源性的差异,即有用信息、与人体异常相关的次要性变化、数据噪声。因此,研究主要挑战之一是提取与疾病相关的信息,忽略或减少数据中不相关的误差。
一些复杂的机器学习方法可以用来寻找可靠的疾病预测因子,这些方法在后面统称为多元统计分析。然而在传统生物医学研究中,普遍使用P值表示研究结果的重要性。P值是检验统计量的观测值概率,如果零假设为真,P值则为反对零假设成立的证据充分值。虽然P定义明确,但其推导意义常被误解。P值不包含关于差异大小的信息,因此,一个具有统计学意义的结果(如p值lt;0.05)并不能确定患病的可能性。非显著性的P值只表明数据与原假设一致。即两组之间可能不存在差异;然而,并不表示最可能为空效应。Goodman(人名)描述了对P值的12个错误理解,并解释了错误理解其含义导致的后果。
同时Malley等人讨论了在生物医学研究中使用P值的限制。他们指出用P值作为价值的衡量非常有限。所得P值指出是否拒绝零假设,或者在定义的显著性水平上不能被拒绝。但这并不表示零假设成立,P值不是假设成立的概率陈述。它不能提供有关生理过程的信息,更甚或许完全没有生物学上的信息。此外,通过事后检定(Bonferroni)或错误发现率(FDR)对上百个测试进行校正,假定单独的P值是独立且任意两个VOCs之间没有关系。然而,在呼吸系统学中产生的数据经常与一系列代谢途径的级联(通常未知)有关,并且生化反应与测量的VOCs相关联。显著性P值不给出通过重复实验得出相同结论的概率。因此,Malley等人建议利用更复杂更先进的技术,不只关注显著性,更专注于预测给定样本(即患者)的类别(即疾病),也就是机器学习技术。
本文我们对现有呼吸系统学数据分析方法进行了综述。关于机器学习,本文目的不仅是对现有方法进行综述,还说明何时应用这些方法。本文首先简要介绍呼吸组学中广泛使用的两种不同分析方法,即气相色谱-质谱联用(GC-MS)和多束毛细管柱-离子迁移谱(MCC-IMS)。然后简介GC-MS和MCC-IMS数据集的典型数据预处理管道。文章涉及数据缩放、归一化和数据变换这些重要但有时被人们所忽略的部分。文章主干聚焦机器学习技术,在该领域现有多种应用方法中,选择应用最广泛、最有发展前途的方法。这种多元统计分析方法分为两类:探险式(无监督、描述性)和监督式。第一种方法是在没有任何先验假设的情况下,探索和发现数据中的趋势和相关性。监督式学习使用先验知识(如类信息),主要用于训练一个数学模型,根据在变量选择过程中提取的一组优选VOCs来区分并预测一个类(疾病)。
1仪器
1.1气相色谱质谱联用
气相色谱-质谱是目前最常用的测量复杂混合物中痕量气体(如呼出气体)的分析技术。该技术包括GC部分,用于分离混合物中不同的化合物;MS部分,用于根据化合物的总质谱进行化合物检测和识别。气相色谱中化合物的分离是基于流动相和毛细管柱内材料与化合物的相互作用。化合物在进入质谱仪后发生电离。很多检测器可用作质谱仪,而飞行时间分光计(tof)是应用最广泛的。在tof-MS中,测量了从电离源到检测器板在电场中移动所需的时间。由于所有离子具有相同的动能(),所以不同的质核比(值)的离子在飞行管中根据速度被分成组或包。GC-tof-MS灵敏稳定,它测量了所有的电离化合物的指纹图谱,具有很高的重现性。然而,这种方法十分耗时,无法实时测量。GC-tof-MS获得十分精确的色谱图(在测量呼出气体时色谱图被称为呼吸图)。图1(a)显示了一种呼吸图。其中,x轴表示保留时间,它与物质对固定相的亲和力成正比;y轴表示VOC的相对丰度,它由质谱仪测量的总离子电流(TIC)决定。每0.2秒MS就会产生一个完整的质谱。
1.2多束毛细管柱-离子迁移谱
离子迁移谱与多束毛细管柱联用是一种应用广泛的气相VOCs检测技术。通过载气驱动样品气进入多束毛细管柱,在其中预分离。再通过1000列平行,直径40mu;m的毛细管柱,进入电离区,在电离区放射性电离源将载子气体分子电离,电离后的载气分子与样品气碰撞从而使样品气发生化学电离。同时离子门周期性打开,载气与样品气产生的离子进入漂移区。与tof-MS类似,离子从外部电场获得能量,被导向一个法拉第盘并分离。同时有漂移气反向流动,阻止未反应的中性分子进入漂移区。在漂移气反吹过程中,电离分子与中性漂移气分子碰撞,从而使电离分子根据质量、形状和极性的不同而被分开。法拉第盘记录信号成为离子迁移谱。MCC-IMS技术在性能、成本和适用性等方面具有很多优势。其检测限低、测量价格低,测量速度快、能够处理呼出空气中的水分、适用于许多医学和生物医学的应用、也适用于工艺分析。MCC-IMS的使用例子如图1(b),其中y轴表示保留时间。
图1所示 (a)一个GC-MS测量呼吸图的例子。x轴为保留时间,与物质对固定相的亲和力成正比,y轴为质谱计测量的总离子电流中VOC的相对丰度。(b) 一个MCC-IMS呼吸图的例子。x轴对应于还原的逆离子迁移率1 / K0(Vs*cmminus;2),它与漂移时间成正比。而y轴对应于保留时间(MCC)。颜色反映信号的高度:黄色表示最高信号,白色表示最低信号。
2数据预处理
GC-MS和MCC-IMS等分析方法的输出由原始数据组成。为了获得可靠的可应用于实际统计分析的数据矩阵,对原始数据进行适当的预处理至关重要。数据预处理是重要的基础性工作,不合理的数据矩阵(无用输入>无用输出)将会在后期影响多元统计分析结果。适当的数据预处理大大改善并简化了数据分析。目前有许多不同的方法和包(商业或免费提供)用于光谱数据的预处理。数据预处理分为不同的子步骤,如噪声平滑、基线校正、样本对齐、峰值拾取和相同化合物产生的多个样品峰组合。最后,收集不同化合物对应的峰面积并转换成数据矩阵进行统计分析。后文将讨论如何对GC-MS和IMS生成的数据进行预处理,以便于将所述预处理方法应用于更多类似的数据。其他分析技术如质子转移质谱(PTR-MS)和选定离子流管质谱(SIFT-MS)也需要类似的预处理过程。PTR-MS和SIFT-MS数据预处理流程的详细描述见图2,同时给出了GC-MS数据预处理流程图。
图2 GC-MS数据处理策略示例,涉及噪声平滑和基线校正(步骤1)、保留时间对齐(步骤2)、峰值拾取(步骤3)、自动峰值匹配(基于光谱特征)(步骤4)、构建数据矩阵(步骤5)。
GC-MS原始数据
噪声平滑、基线校正
对齐
峰值拾取
合并峰
数据矩阵
2.1 GC-MS数据预处理
2.1.1 噪声平滑和基线校正
原始GC-MS数据包含两个维度, x轴为质核比(m/z),y轴为保留时间,因此可获得每一个被测呼吸样本的保留时间和相应质谱。保留时间可以表示为扫描数,5次扫描记为1秒。质谱仪中还记录了所有不同质核比的离子强度。把所有峰值(即质核比)加起来获得一次扫描的TIC。TIC表示色谱图的扫描的强度。TIC每秒测五次,所有的TIC合在一起形成与对应气相色谱图的TIC色谱图。气相色谱图包含x轴的扫描次数和y轴的离子强度。GC-MS原始数据预处理的第一步通常涉及噪声平滑和基线校正。去噪的主要目的是减少随机性,即仪器条件变化引起的噪音。利用小波变换和傅里叶变换等可以对原始数据进行有效的分解,将光谱分解成噪声和信号。Trygg总结了几种去噪要求,需要指出,小波变换函数适用于消除同方差噪声(如高斯白噪声)。然而,GC-MS产生的信号通常含有异方差噪声(与信号成比例)。因此,有必要将异方差噪声转化为同方差噪声以减少噪声,例如对数据进行对数变换。图2用小波变换对色谱进行噪声平滑(使用多贝西Daubechies小波和两级压缩)。数据预处理的下一个步骤是基线(通常称为背景)校正,通常使用多项式拟合而成。不当的基线校正可能导致数据破坏、影响量化和数据分析,甚至影响后续一连串步骤(如对齐),所以适当的合理的基线校正非常重要。目前方法有很多,如带B样条曲线的不对称最小二乘法(ALS),带有惩罚的B样条曲线(即P样条)或使用背景光谱的正交基。在图2所示的流程图中,基线校正是通过ALS
资料编号:[3140]