PRODUCT CLASSIFICATION
產品分類*預測、高考預測、當前哪種男性……這些大家所熟悉的分析都用到了大數據,但是很少人知道,大數據早將“手”伸到了生物醫學領域,開始了疾病預測。
歐美國家對生物領域發展大數據十分重視。今年3月,英國宣布,英國醫學研究理事會(MRC)將投資3200萬英鎊資助*5大項目,來提高醫學生物信息學的能力、產能和核心基礎設施。這項“醫學生物信息學計劃”預計總投資5000萬英鎊,將通過建立耦合復雜生物數據和健康記錄的新方法,來解決關鍵的醫學難題。
早在2012年3月,美國奧巴馬政府就宣布推出“大數據的研究和發展計劃”,將大數據提升到了國家戰略層面,承諾將投資兩億多美元。2014年,美國政府就如何充分利用生物醫學大數據,又啟動了Big Data to Knowledge計劃。
雖然我國企業也頻頻在大數據上有所動作,但是上海生物信息技術研究中心主任、中科院上海生命科學研究院生物信息中心主任李亦學對《中國科學報》記者指出:“雖然國內大數據在其他方向的發展遠超國外,但是生物大數據與國外相比仍比較落后。”
沒有免費的午餐
生物大數據發展相較國外落后,并不是因為沒有數據量產生。
據我國zui早從事理論生物學和生物信息學研究的科研人員之一、中國科學院院士陳潤生介紹,以華大基因為代表的基因測序機構為生物大數據的產生作出重要貢獻。
華大基因當前的測序量大約占據數據量的40%左右,而且隨著技術發展和測序手段成本的下降,幾乎所有的研究型大學和研究單位,無論是在農業、林業還是醫學,都對基因測序有所涉及。
“基因組層面的生物大數據的發展帶動了蛋白質組、代謝組、生物網絡等各個層級的相關生物大數據的海量產生,但是我國當前還未能建立統一的生物數據信息中心。”陳潤生指出。
李亦學也認為,生物大數據滯后于國外的zui根本原因在于我國沒有大型的綜合生物大數據庫,也沒有生物大數據中心平臺。
這意味著,我國開展研究時只能向國外的大數據庫“求助”。雖然這些大數據庫都宣稱,只要遞交申請就可免費共享數據,但是,天下并沒有免費的午餐。
記者了解到,一些大型生物學數據庫要求數據使用申請者提交詳細的數據使用說明,即使數據庫中已存有我國科學家所提交的相當規模的數據,但想再取出使用卻絕非易事。
李亦學稱:“免費共享數據僅是從理論上而言,實際核心數據不會及時交給申請者,內行會發現獲得的數據都是非核心的或不完整的。研究醫學相關的大數據庫則有專門委員會來審核數據申請者,如果拒絕申請,也不會給出理由。”
因此,為了具備拿數據的資格,我國科學家們常需反復準備申請材料,卻往往再也沒有下文。“受制于人,非常惱火。”李亦學感嘆道。
建大平臺遇“難題”
*生物數據庫的建立,往往帶有公益色彩,需要有長期穩定的投入和專業的技術隊伍。據專家介紹,上世紀90年代,我國有關部門已考慮建立國家層面的數據中心,但直到現在,仍未討論出具體的實施方案。
那么,為何數據中心遲遲未能建立?
李亦學向記者算了一筆賬,英美國家對數據庫的建立投入了很多資金,引進的人才大部分有博士學位,每年的費用都由國會撥款支持,來源比較穩定,一年約需投入1億美元。
“我國如果建立一個類似的生物大數據中心,應該也要有數百人的編制和每年幾億元的長期穩定投入。這筆錢如果由政府支付,障礙仍然不小。”李亦學分析。
陳潤生也指出,建立一個國家層級的數據平臺雖然在科學界是共識,但是這個中心建立的地點、呈現的方式(實體還是虛擬)、囊括的內容、涉及的權利范圍以及怎么管理、由誰來管理都有很多不同的方案。
在這樣的形勢下,不能集中精力、統一調配全國的生物數據成了一道難題。
“用基因組數據得跟華大商量,用蛋白數據得跟其他人商量,小數據中心雖然有,但都是各自的,沒有統一的協調管理。沒有全國的生物數據中心,則無法統籌。”陳潤生道出了難處。
同時,我國生物數據雖然產出量大,但利用率遠遠不夠。盡管產生的數據提供了很好的信息,但是挖掘其全部價值還牽扯到很多方面。如數據量很大,能否在短時間內分析和挖掘其價值是個問題。
而且,大數據產生后需要相應的理論、技術和方法來跟進,也需要新的工具和方法。業內人士指出,國內現有的生物大數據分析能力雖然與歐美相差不大,但是在數據分析構架、軟件系統與*IT技術接軌上有待提升。
植根中國“土壤”
李亦學指出,生物大數據雖然面臨這些障礙,但是可以靠“抓目標、強合作”追上的腳步。
他認為,中國發展生物大數據的優勢在于有海量樣本。
當下應該做的,就是保護國內的生物數據資源并且尋找有價值的利用方向。
“一是要明確生物大數據發展的目標和途徑,二是敞開胸懷和國內的研究單位合作,將生物大數據這項事業做好。”李亦學強調。
例如,我國目前實行的醫聯工程在上海地區已經取得了一些成果。
*醫院和社區醫院把就診居民的就診記錄和健康檔案全部聯網,建立了數據庫體系,包含了3400萬份電子病歷和檔案。
李亦學表示,在征得樣本同意后調用健康檔案和檢查結果,既提高了看病效率,又不會妨礙隱私保護,像小水珠一樣的數據zui終也能匯聚成*大海,有益于生物大數據這項國家戰略資源的保護與利用。
陳潤生也指出,生物大數據發展應該腳踏實地,植根于中國的“土壤”,挖掘自身特色。
“中國的物種自身具備多樣的特點,*有可能形成有特色的生物大數據體系。在這樣的形勢下,瞅準問題,發展生物大數據的目的性更強一些,這才是我們要關注的。”陳潤生說。