脑影像基因组学:集成分析与机器学习

MICS科研简讯第五期

影像基因组学或者称影像遗传学(Brain Imaging Genomics/Genetics)是脑科学研究的新领域。影像基因组学通整合分析基因组数据、脑成像数据、诊断数据及其他组学数据如蛋白质组和环境数据来分析大脑结构、功能以及脑疾病的遗传机制。它的多组学研究的特点以及整合分析策略,为揭示生物医学的新发现提供了有力的方法。同时,鉴于其多学科交叉的特点,机器学习技术在其中发挥了重要的作用。该论文回顾了过去十多年来影像基因组学中的机器学习方法。

图 1 本综述的主要内容

该综述论文包括三方面主要内容:一,影像基因组学研究中的科学问题;二,影像基因组学研究的应用,以及其涉及的数据类型;三,影像基因组学中的机器学习方法。在本次简讯中,我们主要介绍影像基因组学以及其中涉及的机器学习算法,具体细节可查阅文后参考文献。

一、遗传概率或遗传可能性(Heritability)

遗传概率用来估计某个性状(Brain Imaging Quantitative Traits, QT)的遗传可能性,也就是该性状有多大的概率受遗传因素的影响,并将该影响量化。涉及的遗传因素包含基因位点变异(Single Nucleotide Polymorphisms, SNP)、单基因变异、多基因变异、以及基因-基因交互异常。遗传概率的研究是影像基因组学研究的基础,它是影像遗传学研究得以从假想走向实践的前提。

遗传概率的研究从早期基于双胞胎或者系谱法,发展到后来基于全基因组测序数据的研究。这些研究从不同程度证明了大脑的结构和功能,以及其发育和退化受单个SNP、多个SNP、单基因、多基因及基因交互的影响。

二、影像基因组学关联研究

图 2 影像基因组学关联分析

性状的遗传可能性研究可以揭露某个性状受遗传因素影响的大小,但是却无法告知我们该性状到底是由哪个基因或者位点的变异所引起。影像基因组学中的关联分析就是用来解答该问题。根据文中介绍,此部内容主要涉及三种策略:1,目标QT分析(图2蓝色框);2,目标SNP分析(图2红色框);3,全脑-全基因组关联分析(图2左上heatmap)。早期的影像基因组学关联分析主要基于这三种策略进行研究。作者在文中详细介绍了这三种研究策略的研究方法。

三、影像基因组学机器学习方法

鉴于SNP数据和脑成像数据数目巨大以及二者错综复杂的关系,单变量分析策略检测能力有限。因此需要进行多变量方法的开发研究。过去十年提出了多种多变量机器学习方法,尤其是结合稀疏学习技术和回归技术、典型相关分析的影像基因组学方法。

1. 稀疏多变量回归(Sparse Multivariate Regression)

为了研究多个SNP和单个或者少许QT之间(或者多个QT和单个或少许SNP)的关联,最直接且有效的方法当属回归技术。该类方法的模型可概括为如下模型:

其中第一项为回归损失函数,第二项为约束项来进行特征选择。X通常对应SNP数据,Y对应QT数据,

是权重系数,它的绝对值大小对应着自变量对因变量影响的程度。在过去十年中,研究者提出了多种损失函数和约束项来更好更全更符合真实情况地检测SNP和QT之间的关联。作者在文中分别介绍了多种损失函数,如单任务回归损失函数、多任务回归损失函数、偏最小二乘回归损失函数、减秩回归损失函数和贝叶斯回归损失函数等;也介绍了多种特征选择目的的约束函数,如Lasso、Group Lasso、Graphical Lasso等。

2. 双边多变量关联分析(Bimultivariate Correlation)

图 3 典型相关分析

与回归技术仅能进行单侧的特征选择相比,该类方法可以同时进行双边特征选择。因此双边多变量关联分析更符合影像基因组学的数据特征,即SNP和QT均为多维且维度非常高。在过去5年中,该类方法研究在影像基因组学领域发展迅速。如图3所示,该类方法可概括为如下模型:

通常,X和Y分别对应SNP和QT数据,u和v是典型权重(Canonical Weight或者Canonical Loading)。公式中的第一项是典型相关损失函数,第二项是约束项用来进行特征选择。作者在文中介绍了多种该模型的变种以及它们各自的特点。如面向特征之间相互关系的Graphical Lasso和Group Lasso,以及面向纵向和多模态的约束等特征选择技术。

3. 融合SNP和QT的预测方法

顾名思义,该部分方法研究主要涉及融合SNP和QT来精准地预测认知得分和诊断结果。如图4所示,作者在文中介绍了几种融合方法,比如使用大脑皮层厚度、表面面积以及SNP数据来同时预测认知得分和诊断类别;以大脑QT为中间约束,并使用SNP数据来预测诊断结果;以及根据融合时不同数据类型对输出贡献的不同,设计的简单融合策略和自适应融合策略等方法。

图 4 影像基因组预测

最后,在介绍了多变量回归和双边多变量典型相关分析技术后,作者介绍了几种融合回归技术和典型相关分析的方法,这类模型能够发现SNP和QT关联的同时,使得二者与诊断信息相关,这样可得到更强的关联以及减少过拟合。 

总的来说,影像基因组学是较新的一个研究方向,其涉及的许多问题尚没有很好地解决。作者对此在论文中进行了详细全面的总结。在本次简讯中,我们仅对文中涉及的影像基因组学基础问题和方法进行了概略性的介绍,很多相关的细节无法面面俱到。如若感兴趣,可查阅文后的参考文献。

参考文献:

[1] Li Shen, Paul M Thompson. Brain Imaging Genomics: Integrated Analysis and Machine Learning. Proceedings of the IEEE. IEEE, 2019. 108(1): 125-162.

  本文作者:杜磊              

单       位:西北工业大学


医学图像计算青年研讨会(Medical Imaging Computing Seminar,MICS)创立于2014年,其宗旨是为医学图像领域的华人青年学者提供学术交流平台,增进相互之间的了解和友谊,帮助青年学者融入学术研究大家庭。MICS聚焦于近两年内的医学图像计算领域原创研究,欢迎医学图像处理、计算机视觉、人工智能等新理论、新方法、新应用的展示,以及影像与临床医学、基础医学深度交叉的突破性进展报告。首届MICS在医学图像领域著名学者、北卡罗来纳大学教堂山分校沈定刚教授的倡议下,于2014年12月在深圳大学举行。经过2015(济南)、2016(广州)、2017(上海)、2018(南京)、2019(苏州)的蓬勃发展,MICS从参会人数不足百人到吸引上千名专家学者参与,已迅速成为全国医学图像计算领域最具影响力的活动之一。2020年的MICS会议将于7月18~19日在大连举办,欢迎全球同道专家和同学共聚学术盛宴!

“医学图像计算青年研讨会”微信公众号

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注