在最新的一期《麻省理工科技評論》評選出的2017年最聰明的50家公司中,除了大家耳熟能詳Google、Apple、Amazon、Alibaba等巨頭,以及NVdia、Telsa、SpaceX等明星公司外,還有一家看似不起眼的公司引起了我們的注意——Sophia Genetics。
這是一家總部位于瑞士洛桑的的生物醫(yī)藥公司,成立于2011年,主營業(yè)務是幫助醫(yī)療機構建立基因分析系統(tǒng),協(xié)助其利用機器學習技術分析患者基因數(shù)據(jù),給出診療建議。2017年9月該公司拿到歐洲知名風投機構Balderton的3000萬美元的D輪融資。
過去兩年里AI和基因熱度不減,這兩個領域似乎在世界范圍內都不是新鮮事,為何唯獨選擇了Sophia Genetics?
智能,平臺與隱私
智能
當我們對給定樣本測序完畢后,基因測序診斷分析一般要經(jīng)過三個步驟:序列比對(Alignment)—變體識別(Variant Calling)—診斷預測(predictions)。
每一個部分都有對應的通用算法。但是由于基因種類太多,這些通用算法的效果并不讓人十分滿意。
Sophia Genetics于是抓住了這個痛點,研制出了三款以人工智能為基礎的基因分析專利技術:PEPPER?, MUSKAT? 和 MOKA?,分別是為了識別單核苷酸多態(tài)性變異與刪除(SNP and INDEL),識別拷貝變異數(shù)(CNV)以及對基因的變異進行嚴重性的評估。
編者注:單核苷酸多態(tài)性變異,堿基的刪除,拷貝變異都是基因突變的種類。分析基因,很大程度上就是在找到這些突變基因,并且評估他們會帶來的潛在危險。)
由于筆者未能在網(wǎng)上找到其專利數(shù)據(jù),因此不能做出進一步分析,但是根據(jù)官網(wǎng)顯示,這些技術能夠實現(xiàn)99%以上的準確率。
Sophia Genetics CEO Dr. Jurgi Camblong
Sophia Genetics的聯(lián)合創(chuàng)始人之一,現(xiàn)任CEO Jurgi Camblong博士在一次采訪中談到,智能算法作為企業(yè)的核心技術,他們投入了大量精力進行研發(fā)。
為了得到適用范圍更廣的算法,他們花費幾年時間組織專家一起標注了來自10000名患者的近50000條基因信息,從最底層開始設計算法,以求完全理解每一個細節(jié)。
功夫沒有白費,Sohpia公司智能算法對基因變體的分類準確率由原來的85%上升到99%。
Jurgi 面對媒體采訪時,表示“正是這種一步步從底層開始建立模型,融合專業(yè)知識,力求了解每一個細節(jié)的技術堅持,讓他們和領域內其他的公司區(qū)分開來?!?/p>
投資方Balderton的合伙人James Wise也對媒體表示,Sophia Genetics 最吸引他們的一點在于,他們的算法能夠處理來自各種不同測序儀的基因數(shù)據(jù),并且給出的預測已經(jīng)達到可供臨床使用的準確率。
目前,Sophia Genetics主打腫瘤,遺傳性癌癥,心血管疾病,代謝疾病,兒科疾病五大門類的基因輔助診斷與智能預測。
涉及的疾病診斷門類
平臺
如果說對技術的執(zhí)著是Sophia Genetics能夠脫穎而出的底氣與資本,準確把握醫(yī)院需求,建立共享平臺則是其對未來的憧憬與投資。
Sophia DDM是公司推出的一款平臺。DDM代表 Data-Driven for Medicine (以數(shù)據(jù)驅動醫(yī)療),反映了公司的愿景。
上述提到的智能算法,都包含在這款平臺上。Sophia Genetics瞄準的是B端的醫(yī)療機構,其核心業(yè)務就是通過幫助那些有測序條件的醫(yī)療機構,接入SophiaDDM平臺,從而使得醫(yī)務工作人員能夠快速準確得對基因進行分析。
在醫(yī)生上傳基因數(shù)據(jù)的同時,其實也同時貢獻了一條新的基因數(shù)據(jù),并且很有可能會給出自己的診斷結果。
這樣一來,隨著使用DDM平臺進行分析的人數(shù)越來越多,后臺積累的標注過的數(shù)據(jù)也越多,底層的智能算法,得益于高質量的數(shù)據(jù),表現(xiàn)也會越來越好,由此形成了一個良性循環(huán)。
當被問到為何要如此堅定的推進平臺,提供軟件服務,Camblong 表示,隨著測序成本的不斷下降,人們獲取自己的基因信息也變得越發(fā)容易,這也就意味著市場上必然會有大量的對于快速、準確的基因分析算法的需求。
好的基因分析算法離不開專業(yè)知識和優(yōu)質的數(shù)據(jù)。因此,如果能夠與醫(yī)院建立良好的聯(lián)系,幫助醫(yī)院建立系統(tǒng),去分析患者的基因數(shù)據(jù),這樣一方面得到了患者的數(shù)據(jù),另外一方面還能夠利用醫(yī)生的專業(yè)知識對基因進行標注。
平臺連接的醫(yī)院越多,儲存的基因數(shù)據(jù),凝結的專業(yè)知識也越多,由此訓練出的算法更加智能,能夠吸引的醫(yī)院也更多。這是一個自激過程。
當然,Camblong 坦言,這個過程并不輕松。
這是一個先有雞還是先有蛋的過程—也就是說,如何在診斷算法表現(xiàn)并不突出的情況下,和醫(yī)院建立好的聯(lián)系?Camblong給的答案是,發(fā)現(xiàn)醫(yī)院當時在基因分析中面臨的最大問題,先解決這個痛點!
在當時2011年,他們發(fā)現(xiàn)的痛點的是,醫(yī)院里采集的基因數(shù)據(jù)精度太低了,噪聲太大。因此團隊便在早期專門設計算法來解決提高采集基因數(shù)據(jù)的準確率。早期的幫助于是換來了醫(yī)院的長期信賴與支持。
2011年公司成立。從2014年初推出平臺,到2014年底平臺上就有了50家醫(yī)院。而現(xiàn)在,這個數(shù)字已經(jīng)上升到了400。
這400家醫(yī)院分部于全世界55個國家,截至發(fā)稿,官網(wǎng)上顯示,已經(jīng)有167000名患者通過DDM平臺得到了診斷。
Sophia Genetics號稱要推進基因測序分析的“去中心化”,要建立世界上最大的臨床基因社區(qū),讓基因密碼真正服務于臨床診斷,幫助更多的患者盡早擺脫病魔。
對一個尚處在D輪融資階段的公司來說,這個愿景十分遠大,但是我們卻確實能夠看到Sophia Genetics在一步步得推進自己的平臺帝國。
隱私
在平臺共享基因數(shù)據(jù),這個想法很讓人心動。但是,隨之帶來最大的麻煩就是基因數(shù)據(jù)的隱私安全問題。
自從基因分析走入人們視線以來,有關基因數(shù)據(jù)的隱私安全,倫理道德的討論就不絕于耳。Sophia Genetics也想到了這一點,隱私安全是它的第三項法寶。最后簡單介紹一下Sophia Genetics在用戶數(shù)據(jù)隱私上的考量。
Sophia Genetics的信息安全管理體系拿到了ISO27001的國際認證。
同時,它和洛桑聯(lián)邦理工學院信息安全相關專家,斯坦福大學的生物醫(yī)學專家正在共同研發(fā)一款能夠保障在全球范圍內儲存獲取平臺上基因數(shù)據(jù)的信息安全技術(SECRAM, Selective retrieval on Encrypted and Compressed Reference-oriented Alignment Map,有專利信息)。
公司承諾,所有的私密信息都將在私有的數(shù)據(jù)中心,至少保存5年,同時嚴格限制讀取。所有患者的個人信息將不會以任何形式披露。
Camblong 表示,在這個行業(yè)已經(jīng)有一些公司做了不好的示范,沒能保護好患者的數(shù)據(jù),公司因此非常重視隱私問題。
Sophia Genetics也永遠不會考慮面向C端個人客戶,他們堅信,大的醫(yī)療機構始終能夠吸納更多客戶,與這些大型醫(yī)療機構打交道也會讓信息安保流程更加可靠。
尾聲
在被問到對公司未來發(fā)展的規(guī)劃時,Camblong談到,希望在推進DDM平臺的同時,強化多層次醫(yī)療數(shù)據(jù)的處理能力。
具體來說,希望能夠綜合醫(yī)學影像數(shù)據(jù)和基因數(shù)據(jù),從而從多個角度為臨床提供參考和決策信息。
比如,借助影像數(shù)據(jù)和基因信息,醫(yī)生可以得知腫瘤在未來的一段時間內的生長情況,由此決定是否要立刻實施手術。這也是所謂精準醫(yī)療的應用場景。
Sophia在希臘語中是智慧的意思,我們也衷心希望,未來有那么一天,能像Jurgi Camblong 希望的那樣,我們能夠參透基因密碼告訴我們的所有信息,從而更好得戰(zhàn)勝病魔,面對未來。