當(dāng)前最核心的生物醫(yī)學(xué)大數(shù)據(jù)問題是解決各種可測量的數(shù)據(jù),,包括遺傳密碼與表觀表型之間的關(guān)系問題,。我們知道分子水平的基因組學(xué),、蛋白質(zhì)組學(xué)研究產(chǎn)生的數(shù)據(jù)量不計(jì)其數(shù),,近年來發(fā)展起來的表型組學(xué)研究也在不斷積累數(shù)據(jù)量,,我們會逐漸擁有大量的表觀數(shù)據(jù),。那么這兩大數(shù)據(jù)如何偶聯(lián),?如此規(guī)模巨大,、系統(tǒng)復(fù)雜的分析只能由人工智能來完成,。
近段時間,人工智能大模型展現(xiàn)了強(qiáng)大的自然語義處理能力,,再次掀起了人工智能的研究熱潮。從圖靈測試開始,,機(jī)器人能否與人對話就被用作判斷機(jī)器是否具有高級別認(rèn)知智能的依據(jù),。大模型的建立,讓人工智能距離通過圖靈測試更近一步,。
那么,,當(dāng)前的人工智能還有哪些潛力?在生物醫(yī)學(xué)領(lǐng)域應(yīng)如何更進(jìn)一步發(fā)展適用的人工智能,?科技日報記者日前對中國科學(xué)院院士,、中國科學(xué)院生物物理研究所研究員陳潤生進(jìn)行了采訪。
生物信息數(shù)據(jù)量大,、維度廣
記者:距離人類遺傳密碼被破譯已經(jīng)過了20多年,,但似乎仍有很多健康問題難以解決,這是為什么,?
陳潤生:過去我們認(rèn)為生物網(wǎng)絡(luò)是“單色”的,,或者說是單因素作用的。因?yàn)楫?dāng)時我們認(rèn)為具有生命功能的分子只有蛋白質(zhì),,遺傳物質(zhì)經(jīng)過轉(zhuǎn)錄,、翻譯的過程轉(zhuǎn)化為蛋白質(zhì),進(jìn)而執(zhí)行生命活動中的各項(xiàng)功能,。
基于這樣的認(rèn)知,,人類遺傳密碼的破譯被理解為解讀“生命天書”。將人類全部30億個堿基序列全部測序完成,,就能讀懂這部“生命天書”,,提綱挈領(lǐng)地搞清生命活動的運(yùn)轉(zhuǎn)體系,從而揭開所有健康的秘密,,獲得解決健康問題的手段,。
但現(xiàn)在我們發(fā)現(xiàn),生物網(wǎng)絡(luò)不是“單色”的,,生命活動的調(diào)控,、抑制、互作中,,還有核酸的參與,。比如有些核酸序列也會發(fā)揮之前被認(rèn)為屬于蛋白質(zhì)的功能,調(diào)控細(xì)胞活動,。在承載人類遺傳信息的30億個堿基對中,,還有很大一部分雖然我們讀出了序列,,但并不知道功能,它們在生命活動中究竟起到什么作用也沒有被研究清楚,。大量這樣的區(qū)域被稱為遺傳物質(zhì)的“沙漠區(qū)”……因此,,當(dāng)前對人類遺傳密碼的破譯進(jìn)程只走了解決健康問題過程中的一小步。
記者:既然生命活動這么復(fù)雜,,是否需要更多的生物信息數(shù)據(jù)才有希望破解健康難題,?目前需要充分利用的有哪些維度的生物信息學(xué)數(shù)據(jù)?
陳潤生:這30年來,,人類遺傳密碼的破譯帶動著整個生物醫(yī)學(xué)領(lǐng)域內(nèi)廣泛的數(shù)據(jù)都成為了大數(shù)據(jù),。
生物信息學(xué)最早的研究對象是遺傳密碼,研究任務(wù)是對遺傳密碼進(jìn)行收集,、整理,、存儲、發(fā)布,、分析和解釋?,F(xiàn)在數(shù)據(jù)更廣泛了,生物信息學(xué)的研究從20世紀(jì)八九十年代創(chuàng)立時的無信息可用,,到現(xiàn)在數(shù)據(jù)呈現(xiàn)海量,、多維、異質(zhì)化特征,。比如通過電子病歷大數(shù)據(jù)挖掘,,我們可以得到很多重要信息。中山大學(xué)一些研究人員通過電子病歷分析找到的科學(xué)結(jié)論被發(fā)表在了國際著名期刊上,。又比如可穿戴設(shè)備帶來的生理生化指標(biāo),,這類信息具備實(shí)時、環(huán)境情緒相關(guān)等特性,。這些數(shù)據(jù)還包括醫(yī)院中的影像學(xué)數(shù)據(jù)、臨床病人在治療用藥后的病情變化數(shù)據(jù),、環(huán)境數(shù)據(jù),、微生物數(shù)據(jù)、地質(zhì)數(shù)據(jù),、化學(xué)農(nóng)藥殘留數(shù)據(jù)等,。所有這些跟健康相關(guān)的數(shù)據(jù)集納起來,構(gòu)成了非常復(fù)雜的健康大數(shù)據(jù)類型,。
可大幅提高生物信息處理能力
記者:如何解析復(fù)雜的健康大數(shù)據(jù),?
陳潤生:健康大數(shù)據(jù)很復(fù)雜,舉例來說,,電子病歷寫的是字,,處理這樣的信息需要自然語言處理模塊,,生理生化指標(biāo)如腦電、心電等信息需要處理的是波形圖,,而影像學(xué)要處理圖像,,組學(xué)要處理符號。對這些性質(zhì)各異的生物信息進(jìn)行全面提取處理,,就如同秦始皇統(tǒng)一六國不僅要統(tǒng)一文字,、語言,還要統(tǒng)一貨幣,、度量衡,,需要將不同的信息融通,再做解析和決策,。
當(dāng)前最核心的生物醫(yī)學(xué)大數(shù)據(jù)問題是解決各種可測量的數(shù)據(jù),,包括遺傳密碼與表觀表型之間的關(guān)系問題。我們知道分子水平的基因組學(xué),、蛋白質(zhì)組學(xué)研究產(chǎn)生的數(shù)據(jù)量不計(jì)其數(shù),,近年來發(fā)展起來的表型組學(xué)研究也在不斷積累數(shù)據(jù)量,我們會逐漸擁有大量的表觀數(shù)據(jù),。那么這兩大數(shù)據(jù)如何偶聯(lián),?如此規(guī)模巨大、系統(tǒng)復(fù)雜的分析只能由人工智能來完成,。
目前來看,,要解析生物醫(yī)學(xué)大數(shù)據(jù),人工智能技術(shù)是最適用的手段,。
記者:從最初的人工智能到阿爾法狗再到大模型,,人工智能發(fā)生了哪些變化?當(dāng)前的大模型在處理生物醫(yī)學(xué)信息方面有哪些優(yōu)勢,?
陳潤生:20世紀(jì)80年代,,由于受算力和算法的限制,我們能設(shè)計(jì)運(yùn)行的人工智能神經(jīng)網(wǎng)絡(luò)非常簡單,,只有幾層,。
現(xiàn)在的人工智能神經(jīng)網(wǎng)絡(luò),比如阿爾法狗,、阿爾法折疊等,,它的網(wǎng)絡(luò)模型架構(gòu)達(dá)到200—300層。當(dāng)今的計(jì)算能力能夠使它們完成更加復(fù)雜的任務(wù),。
人工智能大模型讓人工智能更進(jìn)一步,。我認(rèn)為大模型的出現(xiàn)表明人工智能有了多方面、更深刻的進(jìn)展,。第一方面是對自然語言的處理能力發(fā)生了根本性的變化,。處理人類的自然語言對于計(jì)算機(jī)來說很困難,,突破這個能力后,人工智能可以擁有全局性的知識作為計(jì)算的基礎(chǔ),。
第二方面進(jìn)展是具備了預(yù)學(xué)習(xí)能力,。人類之所以能產(chǎn)生智慧,是因?yàn)閺某錾詠硪恢痹诓粩喾e累學(xué)習(xí)?,F(xiàn)在在大模型中,,計(jì)算機(jī)已經(jīng)可以預(yù)學(xué)習(xí)了,能夠在大量的知識被預(yù)先獲得的前提下,,再將具體科學(xué)問題交給計(jì)算機(jī),,而不是針對某一個特定問題進(jìn)行學(xué)習(xí)。
第三方面進(jìn)展是可積極促進(jìn)模態(tài)融合,。模態(tài)融合可以這樣理解,,比如人工智能不僅能完成基礎(chǔ)醫(yī)學(xué)里的結(jié)構(gòu)預(yù)測工作,還能完成臨床醫(yī)學(xué)中的識圖判讀工作,,更重要的是可以把這兩個能力融合起來,,即人工智能在每個領(lǐng)域都具備專家的知識,又能夠融會貫通,、舉一反三,。
基于以上三點(diǎn),我認(rèn)為發(fā)展人工智能作為未來醫(yī)學(xué)大數(shù)據(jù)挖掘的工具值得重視,。
以人工智能解析生物醫(yī)學(xué)大數(shù)據(jù)
記者:很多人在健康出現(xiàn)問題之后的第一反應(yīng)是“為什么會這樣”,,以后人工智能可以解答這樣的問題嗎?
陳潤生:想要回答“為什么會這樣”這個問題涉及到人工智能界的兩個提法:弱人工智能和強(qiáng)人工智能,。弱人工智能就像阿爾法狗,,能處理特定任務(wù)。而強(qiáng)人工智能被認(rèn)為是有可能制造出來的,、真正能推理和解決問題的智能機(jī)器,。
所以你的問題其實(shí)是在問,強(qiáng)人工智能有可能出現(xiàn)嗎,?過去我認(rèn)為是不可能的,,但現(xiàn)在看來,我覺得隨著大模型的出現(xiàn),,一些問題正在破冰,強(qiáng)人工智能有了出現(xiàn)的苗頭和希望,。當(dāng)然,,現(xiàn)階段人工智能的發(fā)展與真正的強(qiáng)人工智能還差得很遠(yuǎn)。
當(dāng)前我們正在進(jìn)行一些與醫(yī)學(xué)相關(guān)的人工智能研究,。比如擴(kuò)大健康問題相關(guān)的參數(shù),,抽提面部,、表情等特征,也融合基因組,、轉(zhuǎn)錄組,、蛋白組、宏基因組,、表觀組等全部維度的特征,,甚至加入了中醫(yī)內(nèi)容,通過多模態(tài)融合建造醫(yī)學(xué)多模態(tài)數(shù)據(jù)智能整合計(jì)算平臺,,我們稱之為“靈樞”,,并將其用于醫(yī)學(xué)健康問題的實(shí)踐。
記者:網(wǎng)上有人調(diào)侃,,能寫論文的人工智能卻無法解釋清楚“驢肉火燒”“魚香肉絲”,,而生物醫(yī)學(xué)領(lǐng)域?qū)τ谌斯ぶ悄艿囊蟾撸J(rèn)為如何讓人工智能具有更嚴(yán)謹(jǐn)?shù)倪\(yùn)行能力,?
陳潤生:如何才能讓人工智能解釋清楚“驢肉火燒”“魚香肉絲”等人類世界的問題,,其實(shí)是在問如何才能讓人工智能達(dá)到強(qiáng)人工智能的水平。
人工智能的智能水平主要由三個因素決定:數(shù)據(jù),、模型和算力,。數(shù)據(jù)掌握在用戶手中,模型需要不斷研發(fā)討論精進(jìn),,算力是由計(jì)算機(jī)的能力決定的,。
從這三個決定因素入手,我們能夠發(fā)現(xiàn),,在數(shù)據(jù)方面,,要解決相應(yīng)的科學(xué)問題,人工智能掌握信息量高,、信噪比低的足夠信息就可以了,。在算力方面,要依靠計(jì)算機(jī)科學(xué)家不斷從硬件等解決方案入手提高運(yùn)算能力,。
只有模型方面是值得研討的,,現(xiàn)在的模型理論夠不夠達(dá)到強(qiáng)人工智能的要求,如何讓模型更強(qiáng),?
目前有幾個途徑可以讓模型更強(qiáng),,即增加知識量、增加網(wǎng)絡(luò)節(jié)點(diǎn)數(shù),、增加網(wǎng)絡(luò)復(fù)雜度,。當(dāng)前國際上幾個大模型的處理數(shù)據(jù)量已達(dá)到萬億參數(shù)級別,在此基礎(chǔ)上,我認(rèn)為需要進(jìn)一步增加的是網(wǎng)絡(luò)復(fù)雜度,。
我們可以從生理學(xué)家的腦生理切片模型中得到啟發(fā),。新生兒的腦神經(jīng)網(wǎng)絡(luò)很簡單,復(fù)雜度不夠,,學(xué)不了多少東西,。成長讓人的腦神經(jīng)網(wǎng)絡(luò)逐步復(fù)雜,進(jìn)而承載更多內(nèi)容,。因此,,我們可以從研究腦發(fā)育中獲得啟發(fā),進(jìn)而形成一個更完善的基礎(chǔ)理論框架,,獲得適用的模型,,使人工智能走向強(qiáng)人工智能。
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,不代表芒果財經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有,。轉(zhuǎn)載請注明出處:http://lequren.com/1050089.html
溫馨提示:投資有風(fēng)險,入市須謹(jǐn)慎,。本資訊不作為投資理財建議,。