在最新的一期《麻省理工科技评论》评选出的 2017 年最聪明的 50 家公司中,除了大家耳熟能详 Google、Apple、Amazon、Alibaba 等巨头,以及 NVdia、Telsa、SpaceX 等明星公司外,还有一家看似不起眼的公司引起了我们的注意——Sophia Genetics。

 
这是一家总部位于瑞士洛桑的的生物医药公司,成立于 2011 年,主营业务是帮助医疗机构建立基因分析系统,协助其利用机器学习技术分析患者基因数据,给出诊疗建议。2017 年 9 月该公司拿到欧洲知名风投机构 Balderton 的 3000 万美元的 D 轮融资。
 
过去两年里 AI 和基因热度不减,这两个领域似乎在世界范围内都不是新鲜事,为何唯独选择了 Sophia Genetics?
 
智能,平台与隐私
智能
当我们对给定样本测序完毕后,基因测序诊断分析一般要经过三个步骤:序列比对(Alignment)—变体识别(Variant Calling)—诊断预测(predictions)。
 
每一个部分都有对应的通用算法。但是由于基因种类太多,这些通用算法的效果并不让人十分满意。
 
Sophia Genetics 于是抓住了这个痛点,研制出了三款以人工智能为基础的基因分析专利技术:PEPPER?, MUSKAT? 和 MOKA?,分别是为了识别单核苷酸多态性变异与删除(SNP and INDEL),识别拷贝变异数(CNV)以及对基因的变异进行严重性的评估。
 
编者注:单核苷酸多态性变异,碱基的删除,拷贝变异都是基因突变的种类。分析基因,很大程度上就是在找到这些突变基因,并且评估他们会带来的潜在危险。)
 
由于笔者未能在网上找到其专利数据,因此不能做出进一步分析,但是根据官网显示,这些技术能够实现 99%以上的准确率。
 
Sophia Genetics CEO Dr. Jurgi Camblong
 
Sophia Genetics 的联合创始人之一,现任 CEO Jurgi Camblong 博士在一次采访中谈到,智能算法作为企业的核心技术,他们投入了大量精力进行研发。
 
为了得到适用范围更广的算法,他们花费几年时间组织专家一起标注了来自 10000 名患者的近 50000 条基因信息,从最底层开始设计算法,以求完全理解每一个细节。
 
功夫没有白费,Sohpia 公司智能算法对基因变体的分类准确率由原来的 85%上升到 99%。
 
Jurgi 面对媒体采访时,表示“正是这种一步步从底层开始建立模型,融合专业知识,力求了解每一个细节的技术坚持,让他们和领域内其他的公司区分开来。”
 
投资方 Balderton 的合伙人 James Wise 也对媒体表示,Sophia Genetics 最吸引他们的一点在于,他们的算法能够处理来自各种不同测序仪的基因数据,并且给出的预测已经达到可供临床使用的准确率。
 
目前,Sophia Genetics 主打肿瘤,遗传性癌症,心血管疾病,代谢疾病,儿科疾病五大门类的基因辅助诊断与智能预测。
 
涉及的疾病诊断门类
平台
如果说对技术的执着是 Sophia Genetics 能够脱颖而出的底气与资本,准确把握医院需求,建立共享平台则是其对未来的憧憬与投资。
 
Sophia DDM 是公司推出的一款平台。DDM 代表 Data-Driven for Medicine (以数据驱动医疗),反映了公司的愿景。
 
上述提到的智能算法,都包含在这款平台上。Sophia Genetics 瞄准的是 B 端的医疗机构,其核心业务就是通过帮助那些有测序条件的医疗机构,接入 SophiaDDM 平台,从而使得医务工作人员能够快速准确得对基因进行分析。
 
在医生上传基因数据的同时,其实也同时贡献了一条新的基因数据,并且很有可能会给出自己的诊断结果。
 
这样一来,随着使用 DDM 平台进行分析的人数越来越多,后台积累的标注过的数据也越多,底层的智能算法,得益于高质量的数据,表现也会越来越好,由此形成了一个良性循环。
 
当被问到为何要如此坚定的推进平台,提供软件服务,Camblong 表示,随着测序成本的不断下降,人们获取自己的基因信息也变得越发容易,这也就意味着市场上必然会有大量的对于快速、准确的基因分析算法的需求。
 
好的基因分析算法离不开专业知识和优质的数据。因此,如果能够与医院建立良好的联系,帮助医院建立系统,去分析患者的基因数据,这样一方面得到了患者的数据,另外一方面还能够利用医生的专业知识对基因进行标注。
 
平台连接的医院越多,储存的基因数据,凝结的专业知识也越多,由此训练出的算法更加智能,能够吸引的医院也更多。这是一个自激过程。
 
当然,Camblong 坦言,这个过程并不轻松。
 
这是一个先有鸡还是先有蛋的过程—也就是说,如何在诊断算法表现并不突出的情况下,和医院建立好的联系?Camblong 给的答案是,发现医院当时在基因分析中面临的最大问题,先解决这个痛点!
 
在当时 2011 年,他们发现的痛点的是,医院里采集的基因数据精度太低了,噪声太大。因此团队便在早期专门设计算法来解决提高采集基因数据的准确率。早期的帮助于是换来了医院的长期信赖与支持。
 
2011 年公司成立。从 2014 年初推出平台,到 2014 年底平台上就有了 50 家医院。而现在,这个数字已经上升到了 400。
 
这 400 家医院分部于全世界 55 个国家,截至发稿,官网上显示,已经有 167000 名患者通过 DDM 平台得到了诊断。
 
Sophia Genetics 号称要推进基因测序分析的“去中心化”,要建立世界上最大的临床基因社区,让基因密码真正服务于临床诊断,帮助更多的患者尽早摆脱病魔。
 
对一个尚处在 D 轮融资阶段的公司来说,这个愿景十分远大,但是我们却确实能够看到 Sophia Genetics 在一步步得推进自己的平台帝国。
 
隐私
在平台共享基因数据,这个想法很让人心动。但是,随之带来最大的麻烦就是基因数据的隐私安全问题。
 
自从基因分析走入人们视线以来,有关基因数据的隐私安全,伦理道德的讨论就不绝于耳。Sophia Genetics 也想到了这一点,隐私安全是它的第三项法宝。最后简单介绍一下 Sophia Genetics 在用户数据隐私上的考量。
 
Sophia Genetics 的信息安全管理体系拿到了 ISO27001 的国际认证。
 
同时,它和洛桑联邦理工学院信息安全相关专家,斯坦福大学的生物医学专家正在共同研发一款能够保障在全球范围内储存获取平台上基因数据的信息安全技术(SECRAM, Selective retrieval on Encrypted and Compressed Reference-oriented Alignment Map,有专利信息)。
 
公司承诺,所有的私密信息都将在私有的数据中心,至少保存 5 年,同时严格限制读取。所有患者的个人信息将不会以任何形式披露。
 
Camblong 表示,在这个行业已经有一些公司做了不好的示范,没能保护好患者的数据,公司因此非常重视隐私问题。
 
Sophia Genetics 也永远不会考虑面向 C 端个人客户,他们坚信,大的医疗机构始终能够吸纳更多客户,与这些大型医疗机构打交道也会让信息安保流程更加可靠。
 
尾声
在被问到对公司未来发展的规划时,Camblong 谈到,希望在推进 DDM 平台的同时,强化多层次医疗数据的处理能力。
 
具体来说,希望能够综合医学影像数据和基因数据,从而从多个角度为临床提供参考和决策信息。
 
比如,借助影像数据和基因信息,医生可以得知肿瘤在未来的一段时间内的生长情况,由此决定是否要立刻实施手术。这也是所谓精准医疗的应用场景。
 
Sophia 在希腊语中是智慧的意思,我们也衷心希望,未来有那么一天,能像 Jurgi Camblong 希望的那样,我们能够参透基因密码告诉我们的所有信息,从而更好得战胜病魔,面对未来。