基因檢測日益普及,通過少量的血液或唾液樣本,人們試圖了解自己的祖先是誰,身體是否有健康隱患等。
但美國科學(xué)院院士、“科學(xué)怪才”克雷格?文特爾(Craig Venter)本周發(fā)表在《美國國家科學(xué)院院刊》(PNAS)的論文給基因檢測行業(yè)的隱私安全扔下一顆“炸 彈”:從DNA序列中,通過機器學(xué)習(xí)的算法,人們可以反推知道,這份DNA序列的擁有者是什么膚色,有著什么顏色的瞳孔,甚至聲音如何。
而過去,像美國基因檢測公司23andMe和藥企合作,根據(jù)海量消費者的基因數(shù)據(jù)進行疾病基礎(chǔ)研究時,做出保證,消費者的基因信息都是匿名化的,不會泄露隱私。在文特爾看來,這些承諾都是“虛假的”,他呼吁更全面的措施來監(jiān)管基因檢測中的個人隱私問題。
盡管,他作為聯(lián)合創(chuàng)始人的“人類長壽公司(Human Longevity Inc)”也涉及基因測序業(yè)務(wù),收集了大量基因組數(shù)據(jù)。此次論文的第一完成機構(gòu)也是“人類長壽公司”。
在社交媒體推特(Twitter)上,文特爾團隊的文章引起波瀾。當(dāng)?shù)貢r間9月6日,另一家美國DNA檢測公司MyHeritage的首席科學(xué)家、哥倫比亞大學(xué)計算機學(xué)助理教授Yaniv Erlich將質(zhì)疑文發(fā)至無需同行評議的預(yù)印本網(wǎng)站bioRxiv,指出文特爾團隊論文的“主要錯誤”,認為其實際上并沒有利用全基因組信息中的標(biāo)記物來識別身份。
隨后,文特爾團隊中完成該論文的第一作者Christoph Lippert在推特上回復(fù):“(這是)數(shù)字時代的同行評議。我們正在準(zhǔn)備相應(yīng)的答復(fù)。”
算法來預(yù)測DNA背后的人像
文特爾團隊在發(fā)表于當(dāng)?shù)貢r間9月5日的論文中表示,他們實現(xiàn)“身份反推”所依靠的是基于機器學(xué)習(xí)的算法。他們搜集了1061個樣本進行訓(xùn)練,建立起基因信息和面部特征、聲音等的關(guān)系,并搭建了模型來預(yù)測DNA背后的三維面部結(jié)構(gòu)、年齡、身高、體重、膚色、瞳孔顏色和聲音。
三幅人臉對比中,左側(cè)為真實人臉,右側(cè)為算法預(yù)測的人臉。
為了測試這套算法,研究人員選取了10位來自不同種族志愿者的圖像和基因信息,并打亂,然后讓計算機進行配對。結(jié)果顯示,計算機的配對正確率是80%。但如果測試對象是來自同一個種族,比如歐洲裔或非洲裔,配對的正確率會有所下降,為50%。
文特爾團隊表示,就目前而言,這一算法對膚色、瞳孔顏色等簡單特征已有較高的預(yù)測準(zhǔn)確率,但在聲音等復(fù)雜特征上還有些困難,也無法準(zhǔn)確預(yù)測DNA擁有者是不是禿頭,有沒有雀斑等。
但研究人員表示,目前算法還僅基于千余個樣本的訓(xùn)練,隨著樣本的增加,準(zhǔn)確率會得到改善。
通過DNA數(shù)據(jù)來預(yù)測擁有者的面部特征是文特爾近兩年的主要工作之一。文特爾被冠以“科學(xué)怪才”的稱呼,他曾成立公司與“人類基因組計劃(HGP)”的六國科學(xué)家公開競爭,并因開發(fā)新的測序技術(shù)成功追趕,后和六國科學(xué)家合作,完成該項目。此外,他還先后完成全球第一個人工合成生命體和最簡單的人工合成生命體。
質(zhì)疑:只是根據(jù)人口統(tǒng)計學(xué)上的平均值來進行了預(yù)測
但“怪才”的名號沒有為文特爾避免此次的學(xué)術(shù)爭議。
美國DNA檢測公司MyHeritage的首席科學(xué)家、哥倫比亞大學(xué)計算機學(xué)助理教授Yaniv Erlich毫不客氣地將質(zhì)疑文發(fā)表在預(yù)印本網(wǎng)站bioRxiv,認為文特爾團隊論文存在幾大“錯誤”。
其中,Erlich指出的一點是,他通過仔細查看論文圖表后發(fā)現(xiàn),文特爾團隊從基因數(shù)據(jù)中并不是挖掘出了與面部特征有關(guān)的標(biāo)記點,而只是從中知道了DNA所有者的祖源和性別信息。“原作者并不知道某位特定個體的身高或者面部結(jié)構(gòu),他們只是根據(jù)人口統(tǒng)計學(xué)上的平均值來進行了預(yù)測。”Erlich說。
在推特上,Erlich還翻出了自己一年前的推特。當(dāng)時,文特爾根據(jù)自己的DNA“預(yù)測”出了一張側(cè)臉三維圖像,并在推特上發(fā)表了虛實對比圖。但這遭到Erlich的“吐槽”,他隨即找出了美國影星布萊德利?庫珀(Bradley Cooper)的側(cè)面照,表示:“很多白人男性在相同的拍攝角度下,看起來都很像預(yù)測出的這張臉。”
左側(cè)為克雷格?文特爾(Craig Venter)的真人照,中間為預(yù)測圖,右側(cè)為布萊德利?庫珀(Bradley Cooper)真人照。
“如果文特爾的方法真的那么棒,為什么他們不在獲得允許的情況下,從公開的基因數(shù)據(jù)庫中直接挑一個基因樣本,看看能不能識別背后的身份?”Erlich在質(zhì)疑文的末尾寫道。
合作咨詢
肖女士
021-33392297
Kelly.Xiao@imsinoexpo.com