新闻动态

News information

行业新闻 当前位置 - 新闻资讯 - 行业新闻

如何用基因组预测自闭症?

作者:  发布时间:2017-10-28 13:47:03


普林斯顿大学计算机科学、路易斯-西格勒综合基因组学研究所教授Olga TROYANSKAYA

        2017未来科学大奖颁奖典礼暨未来论坛年会在京举办。在基因科学研讨会上,普林斯顿大学计算机科学、路易斯-西格勒综合基因组学研究所教授Olga TROYANSKAYA发表主题演讲。

  Olga TROYANSKAYA介绍说,通过基因组研究可以找到造成自闭症的预测规律,通过机器学习的方式来做,将一些与自闭症相关的因素关联建立起来。同时反过来帮我们了解一些基因突变和排序。

  在这样的序列研究中,可以更好地对照家庭情况,帮助预测,还能够更加量化地将数据进行对照。另外,不仅能预测和自闭症相关,还能预测如何和自闭症相关,而这些将会人们有巨大的帮助。

  以下为演讲全文:

  Olga TROYANSKAYA:欢迎大家来参加这样一个演讲,这是一个非常有趣的话题,下面我想继续讲一下精准医疗这样的话题,我们如何能够很好的来诊断疾病。这不仅是一个通用的概念,你的基因组,细胞告诉我们发生了什么,我们如何开展这个话题,了解基因组,像肿瘤医院等等来了解基因组的测序,这是一个非常重要的基础,我们还有多远的路要走,我们到底怎么样的来从知识的学习过渡到知识的深度掌握,我们不妨借助机器学习都是有可能的。这里我们考虑一下人们的疾病复杂性。可以说在上面这样的一些情况还有很多其他的疾病,可以对它进行命名,但是我们到底对这些病因有没有理解,我们的疗法怎么样,有提供精准的医疗,对于有一些患者有一些突变,这些突变告诉我们如何更好的治疗。我们实际上现在对于基因,基因组了解得并不深刻。

  现在,我们需要强调的是要大数据的分析,我们有很多的数据是关于这个基因组的。我们应该不断的来收集患者的大数据,然后进行分析和处理,集成,以及加一些算法,紧密的加一些方法联系起来。我们有一个非常大的实验室,我们要更好的了解我们自己的身体,我们应该知道我们的干细胞或者是说肾细胞有什么样的功能,有什么样的保护机制。

  如果我们能够解码这些细胞的基因的话,那可以说很多的孩子都能够摆脱自闭症,会造福于人类。那么,这是一个非常难以回答的问题。到底我们的基因组了解得怎么样,我们的基因组到底看起来是什么样的。我们有一些关于我们的基因组,现在有一些我们根本不了解。有很多的突变告诉我们在你的基因组里面有一个字母改变了,会产生很大的影响,所以98%的突变经过的统计学的复习,结果发现会出现Y,有的时候会出现不一样。那么,我们如何在这个基础上开展精准医疗呢?我们应该去解读高频率的一些生物学的表达。那么他的测序是怎么样的,是怎么样的相互交互作用的,如果你看一下基因测序的话,我们能不能对于这个进行一些解码。还有就是他们是如何来进行调解的,在我们的体内。那么现在我们基本上可以看到有一些我们在这个基础上如何来进行解释一个单一的字母的变化,在基因组里面,是怎么样来影响我们的染色体的,包括了我们的基因调解。有一些基因的突变,大家已经熟悉了。比如我们已经知道我们的头发为什么是黑色的,或者是说灰白色的,像和太阳等因素有关,我们对这些进行了解,当我们能够对一些突变的化学的后果进行某种预测的时候,我们的认识就推进了一步。那么我们如何认识,哪一些SNP是具有功能的,并且能够导致人类生病,我们要进行一些准确的了解。那么每一个细胞都有同样的基因组但是它为什么会出现不同的神经细胞。所有的这些信息是如何在子集当中进行表达的,我们可以进行一个测绘,我们可以了解一些功能的网络。我们可以加不同的基因型。生理学的角度可以说来了解基因是非常关键的,有利于人们疾病的治愈,在人们进行研究的时候,我们看到了一些神经细胞的研究,也是非常重要的。

  我们搜集数据非常关键,我们神经系统的运行,我们怎么样比对不同群组的患者情况,对于组织层面要技术更多的研究。在其他的组织里的一个信号,可能对我们了解神经细胞是有帮助的。还有就是说我们的网络和通道,他如何能够在我们的人体组织中进行改变这些问题。以及我们的一些具体的功能绘图,可以说是被准确的进行预测。现在我们应该思考的组织层面的一些问题,在我的实验室进行了一些研究,针对上述问题做出了一些探讨,我们希望能够通过一些深度学习的网络来进行更好的了解人体的基因。

  这是一个深度学习的框架来预测染色体的效应,还有就是说一个通用的方法,这是关于一些组织方面的数据集成的,把它集成到一个功能网络里面。有不同的组织,怎么组织到一起的。然后是我们如何使用这样的一些网络,因为使用跟大脑相关的网络来了解和预测ASD相关的基因。我们开发这样的一种方法了。

  我们如何看待基因组,所有的这些人都有同样的疾病。他们彼此的突变都不一样。在调解他们的疾病,能够去预测这些突变的影响,因为大部分的这些学习都有非常多的例子,也都看到了,如果出现了突变,比如说这个人出现了自闭症或者是另外一个突变是别的疾病,这个里面大部分的突变都出现了成千上万的人都在这里,但是大部分的突变大家看到的实际上都不是造成疾病的突变,对我们人来说是好的事情,因为这些演变并不一定总是会造成一些疾病,这是好事。

  但是不好的事情是科学家当中,我们并不是总是能够看到感兴趣的,或者是说不会看到同样的事情两次,所以有非常多的方式造成我们办法没有去检测,怎么样做呢?深度学习非常有帮助,并不是对每一个问题啊都能够解答,我也不会这样跟大家说,确实它非常强大,我们通过这样一个方式,有一个深海的方法,是真正和清华一起来合作的,他们刚刚完成了一个博士的研究,我们单独的一个基因,但是没有看到任何突变的数据,可以看到基因组当中哪些对于基因的调制非常关键,而哪些对于不同的分子非常关键,比如说细胞当中的DNA有所反应,从而对它进行管制。这样的话我们就可以去预测超过两千多个不同的生物方面的变化。这样的话,就是包括了其他的一些活动,能够告诉我们DNA到底是开放的还是关闭的,所以实际上我们也在通过这样的例子可以看到这样一个对比的基因所带来的对比,因此我们知道有不同的,一千多个类型和亚型,这样的话包括了细胞类型都能够进行一些了解。所以我们并不是基于突变的数据,但是我们现在已经可以去做很多的一些预测了,可以有三十多亿个突变群当中找到它的效果,而且现在我们有了超级强的,得到了监督的积极学习去预测这些生物上的变化是不是有可能造成疾病的部分,我们也通过了很多的方式进行验证,有很多的时候都是实验性的,现在没有时间跟大家说,但是我可以跟大家说它意味着什么,也就是说现在我们有了整个基因组的话,我们知道哪些和自闭症相关的,可以帮助这个群体,这个是A到C,这是假设的变化,这个会造成这些疾病,这个时候我们需要一些基因来跟他是相关的,这样的话就不会在正确的时间被开启,这个实际上就是一个在自闭症当中的前因后果,因此可以进行控制。

  比如说这个是从T变成C的一个单独的字母的变化,但是它是非常大的一个12.3倍的增高,这个实际上在很多的细胞当中都会有所影响。它所告诉我们的意思是基因的表达是会在基因的很多的地方得到表达,本来那个地方没有基因,但是有表达了,就会造成问题。这个也是我们的递归方式,希望把这样的表达去关闭掉。其中的一个亚组叫做相关的疾病内容,会导致一些血液方面的疾病,这样的话,就会完全的基于我们是不是之前看到过这样的突变,来对这个疾病进行处理,现在实际上我们还有其他的一些突变,可以对这些基因进行管理和调治,我们是不是能够做得更深,功能层面上,这些细胞和蛋白质之间的关系,让他们可以去完成某一些任务,可以知道正常的时候是怎么样工作,可以帮助我们在疾病的时候能够怎么样的工作来进行区分。比如说我们会有一些专门基于组织的图谱,我们知道它跟免疫系统当中的都会有所不同。

  现在我们有非常多的基因组的集的数据,这是关于不同的细胞怎么样开启和关闭的,很多来自患者,也来自各种不同的疾病,也有一些来自于组织培养和患者。大家可以想象一下对于任何的细胞类型,实际上数据还是很有限的,对于有一些基因和细胞来说,他们实际上可以在你肾脏进行过滤的时候,真正可以获得一些数据了,之前是完全没有。

  我们如何能够让这样一些精准的图谱绘制出来,这个时候我们对于某一些部分一个数据都没有,所以我们进行了相关的危险的整合工具,所有的这些数据都能够考虑到集体的组织的知识,不仅仅是关于组织的知识,也包括关于不同的组织和细胞类型的关系,大家可以考虑到圆细胞可能是更大的一些,在做过滤和相关的工作的肾部的细胞,这些都是我们去进行搜集的。

  利用这样的一个优势,因为生物非常的聪明,我们的这些演进并不总是会让大家越来越糟糕,而是越来越聪明的进化,这样的通路和路径,可以知道它的不同细胞中的路径,可以重用,因此举一个例子,你希望了解在这样一个肾脏中的圆细胞,对于他的肾脏功能特别重要,还有对神经细胞非常重要的细胞,他们实际上会去对我们的肾脏的了解,还是有相互帮助的。我们需要让这些不同的网络之间进行打通,有144多个细胞类型和组织是我们建立的网络和进行整合的。大部分的实际上是有一些血液的,以及大脑的,还有免疫系统的。那现在大家可以在我们的,叫做人体基地的网站上来获得,这也是我们目前所供职的另外一家机构中联合制作的,感兴趣的话大家可以下载。

  如果大家希望知道心血管疾病的内容,你想知道这个Lβ这样一个细胞,一个关键的转换的,如果像发炎的细胞真的是开启,那肯定是不好,这是出现了心血管疾病的时候的事情。如果有一个网络,我们可以预测关键哪些基因可以进行和它与则,特别是LEBβ这样的数据库当中,我们现在来看进行了校对和交叉检查,发现了一些近邻,实际上这些是在β的部分当中得到很强的管制的。尤其是在血管的这些运作中,所以如果我们看其他的一些组织,我们所有的信息都不是非常的清楚,如果看其他的组织的话,那么这些网络实际上跟在血管中的组织准确度不能相比了,所以它能够帮助我们知道它的应答的情况,这个数据库本身非常混乱,因此我们通过了这样的整理,可以更好的了解它的运作机理。另外我们可以讲它与基因数据相结合,其中一个非常强大的通用的方式,就是说在研究疾病的时候,希望能够知道跟基因相关的疾病,可以让有疾病的患者和没有疾病的患者进行一个因序列的测序。然后知道它的规律,比如说高血压疾病有很大的群体,有一部分人有基因的突变,还有一部分没有基因的突变,是不是有显著性,听起来很棒,很棒,听起来有很多的问题,你如果抛硬币的话,你说我赌上一百元还值得,如果下次是反面,如果两千次里面就一次正确,那可能我的这个赌注就不合算了,是吧?所以说我们知道这是非常相似的。

  当我们看到人的时候,看这些突变的时候,都是相似的。因此这个研究实际上是因为统计数据上给我们带来很大的困难,因此我们需要看这些基因是不是可以进入到这个研究。但是,是不是能够达到显著性,是不是有大部分人的一个情况,如果看高血压,在他的肾功能上的表现,基因是不是有一些跟它之间的关联性来对我们的预测有所帮助,是不是有肾脏疾病等等。确实看起来这样的功能性的网络的时候,进行优先化的排序的话,可以有更高的对于肾病的预测率,如果我们只是看网络本身而不是基因组的数据能不能真正的表明我们的功能,脑功能,我们希望去确保和基因相关的数据,这里说自闭症,这是一个在美国,中国都非常普遍的问题,其他的地方也是。美国68个孩子中有一个受到自闭症的影响,这是非常普遍的,而且很早的时候出现了神经退化性的压力,这个方面没有太多的研究,我们没有进行太多的和自闭症相关的基因,没有一个去解释超过1%的比例,这是一个非常具有挑战性的研究,但是我们要复杂,我们能不能用这样的网络方式来知道哪一些造成了自闭症的基因,这是我们索要做的,这是一个非常复杂的一个图,也有是说大脑的一个状态,我们看一下和自闭症相关的基因,比如说灰色部分,再看一些其他的网络的规律,可能会对这些基因有预测性,而它跟自闭症有关,和其他的疾病有所区别,举一个例子在这里,一个自闭症的基因,可能和一个神经发育相关的,是蓝色的,而且还有很多的其他的基因,是对于这些神经元之间怎么样连接,是黄色,如果我们找到一个规律是预测性的,我们看其他的基因组,看我们从来都不知道和自闭症相关的基因,再预测他们可能会造成自闭症,这是我们目前做的,而且更加复杂的方式完成的,为什么更复杂呢,我们不知道有多少的基因和自闭症相关,但是我们确实知道有一些有可能和自闭症相关的基因,这样的话我们会有一个机器学习的方式来做,而且可以对这样的一个部分感兴趣的各位,大家可以知道有一些是跟这些自闭症相关的,我们怎么样确保他们之间的关联性,建立起来。

  现在意味着我们可以用这样的网络的规矩,让几个基因组全部放进去,大概两万六千多个不同的基因。是基于预测他们和自闭症有相关性,那么现在大家可以说好,我现在可以基于其他的方式来做出关联,但是我们还可以检验,我们还有一些家庭是有自闭症基因的,但是,能不能够用在这个预测中,去看我们的预测,最后就能够反过来,当然,我们了解自闭症,而且我们现在也可以去寻求其他的一些突变,比较少见的,或者是说更具有特异性的。

  现在我们有成千上万的这些和自闭症相关的,但是没有特征的基因,但是我们排序,我们会看这样一个序列的研究中的状态。因此有不同的群组,有2500多个家庭,一共有一万多人,他们得到了一些基因序列的测序。他们实际上都是非常好的群组,双方的父母的基因数字,还有他的孩子,以及姐妹的数字,都有。这样的话我们就能够更好的对照这个家庭的情况。而且,像看这样自闭症在突变的时候,尤其是非常少见的部分都是很有用的,因此10%以上的都是帮助我们进行预测的。

  而且,还能够跟这样的一个更加量化的数据相对照,如果说看到两次的话,大家知道只有27个这样的基因。我们很难去看超过两次,还有就是说他兄弟姐妹的突变,这是一个正确的预测,如果我们的预测可以真正形成对于自闭症的预测的话,我们就知道非常有用了,而且我们可以通过其他的方式来做,他们很有可能和自闭症相关,比如说对于它的功能性基因组,但是不止如此,我们现在可以重新回到网络中,我们不仅仅是和自闭症相关,我们可以看看为什么?如何和自闭症有所关系,以及这些路径是在大脑当中怎么样形成的,这样的话我们就可以把这两万五千多个不同的基因在这些网络和路径中联系起来。并且能够看到他们之间的一种关联性和他们的显型,亚型,比如说C1的情况,实际上跟一个分子中的缺陷相关,那么我们知道他可能跟另外一种显型相关,而这样的显型是很多的孩子所出现的情况,还有神经发育,比如说他们之前也会出现一些非常严重的肠胃情况,像胃痛治疗的话,不仅仅可以看起来像是一个自闭症的基因,但是还可以看到的是它之前没有相关过的基因。是不是有一个既定的,具体的一个路径可以形成自闭症呢?这是我们在研究当中,在关注的时候去研究的。