如果你曾经看过《犯罪现场》这样的罪案剧,你可能会想起一个场景:法医通过电脑对数千个 DNA 片段进行搜索,从而匹配出犯罪现场和犯罪嫌疑人。虽然这个过程在现实生活并不像电视剧那样,但是主要思路是一样的。遗传学本质上是一门比较科学。无论你是想确认一名嫌疑犯、一种基因疾病还是一名失散已久的亲属,都需要将一个基因组与另一个基因组进行比较,从而在数十亿个 DNA 中发现相似和不同。
 
虽然确认失踪人员或者犯罪嫌疑人的过程通常只会涉及到一个人的几个遗传片段,但是像识别某种疾病的基因变异这样的问题,往往需要大量的数据处理。尽管目前很多前沿的研究都是为了帮助科学家们做到这一点,但对所有这些数据都做到充分的定义还面临着巨大的挑战。这也正是人工智能所要解决的问题。
 
本周,谷歌推出了一款名为 DeepVariant 的程序,可以通过深度学习来拼凑一个人的基因组并且更准确地识别出 DNA 序列中的突变。
 
这个技术在谷歌中曾经用来识别一张照片是猫还是狗,在这里 DeepVarient 利用了相同的技术解决了 DNA 分析领域的一个重要问题。现代 DNA 测序仪可以执行高通量测序,读取出的不是完整的 DNA 序列,而是重叠的短片段。然后将这些片段与另一个基因组进行比较,从而将它们拼凑在一起,进行变异识别。但是这项技术很容易出错,科学家也很难排查出这些错误以及小突变。这些小突变非常重要。它们可以提供重要的见解,比如说,疾病的根本原因。区分哪些碱基对是错误的,哪些是正确的,这被称为“变量调用”。
 
其实已经有一些工具可以帮助科学家做到这一点。最广泛使用的是 GATK,这是一种人工设计的算法,可以将统计数据应用到测序机器最常出错的地方。然而,DeepVariant 利用神经网络技术来构建比以往任何技术都更精确的程序。去年,这项技术在 FDA 大赛中获得了第一名。
 
神经网络之所以如此命名,是因为它们的工作方式有点类似于神经元在大脑中的方式。每一层网络都逐级处理着更为复杂的工作。为了利用图像识别技术来建立一个精确的 DNA 序列,谷歌团队将 DNA 测序数据转化为了一个图像。例如,构成遗传密码的 As、Ts、c 和 Gs,就会以红色的形式出现。研究人员随后对数百万份基因组测序和高通量读取技术进行了研究,并教会了这个程序哪些东西更重要,哪些可以忽略。
 
由此产生的算法可以比以往任何系统都更准确地对错误进行排查。最初,这些图像仅由三种颜色组成,或三层数据。不过,本周发布的最新版本包含了 7 种,使其可以更加精确地表达。这个程序目前是作为开源软件发布的,外部研究人员可以使用以及继续进行程序强化。
 
DeepVariant 绝不是 100%准确的。但它的成功代表了机器学习对基因学的影响。基因组数据的规模和复杂性是巨大的。机器可能正是我们需要弄明白的东西。