2003年,科學(xué)家首次對人類基因組進(jìn)行測序,揭示了構(gòu)成我們生命“藍(lán)圖”的全部DNA序列。盡管98%的基因組不直接編碼蛋白質(zhì),它們?nèi)陨羁逃绊懼虻恼{(diào)控和細(xì)胞功能。這些非編碼區(qū)域曾被視為“垃圾DNA”,但如今被認(rèn)為可能蘊(yùn)藏著重要的生物學(xué)秘密,就像是基因界的“暗物質(zhì)”。
今年6月25日,“深度思維”公司宣布,他們開發(fā)出一款名為AlphaGenome(阿爾法基因組)的人工智能(AI)模型,有望在破譯這一“暗物質(zhì)”上取得突破。《自然》雜志報(bào)道稱,這一“從序列到功能”的模型能預(yù)測DNA中微小變化會對一系列分子過程產(chǎn)生的影響,為解碼人類基因調(diào)控機(jī)制提供了新路徑。
解釋DNA序列的“一體化”工具
深度思維公司在2020年推出的“阿爾法折疊2”(AlphaFold 2),成功破解了一個(gè)困擾科學(xué)界數(shù)十年的難題:如何根據(jù)蛋白質(zhì)的氨基酸序列,準(zhǔn)確預(yù)測其三維結(jié)構(gòu)。這一突破不僅改變了結(jié)構(gòu)生物學(xué)研究方式,也推動了新藥研發(fā)的進(jìn)程。
相比之下,要理解DNA序列的功能則更加復(fù)雜,因?yàn)樗幌竦鞍踪|(zhì)那樣擁有一個(gè)確定的“正確答案”。這些功能主要體現(xiàn)在DNA對基因表達(dá)的調(diào)控上,比如決定基因什么時(shí)候開啟或關(guān)閉,在哪些細(xì)胞中發(fā)揮作用,以及以何種強(qiáng)度表達(dá)。
如果說蛋白質(zhì)結(jié)構(gòu)預(yù)測是在拼出“零件”的立體模型,那么DNA功能預(yù)測就是要理解說明書中每一個(gè)符號、注釋、開關(guān)命令甚至“暗物質(zhì)”區(qū)域的真正含義。其中涉及的信息層級更復(fù)雜、關(guān)聯(lián)更廣泛,且同一個(gè)DNA片段可能在不同時(shí)間、不同細(xì)胞類型中扮演不同角色,因此建模難度遠(yuǎn)高于蛋白質(zhì)。
幾十年來,生物學(xué)家嘗試用各種計(jì)算工具來揭示DNA復(fù)雜而隱秘的調(diào)控機(jī)制,但這些模型往往聚焦于單一功能。科學(xué)家們渴望一種用于解釋DNA序列的“一體化”工具,于是,“阿爾法基因組”應(yīng)運(yùn)而生。
據(jù)美國趣味工程網(wǎng)站報(bào)道稱,與以往需在“序列長度”與“預(yù)測精度”之間取舍的模型不同,“阿爾法基因組”實(shí)現(xiàn)了二者兼得。它既能捕捉長程基因組上下文信息,又能提供堿基層面的精準(zhǔn)預(yù)測,拓展了疾病生物學(xué)、罕見變異研究、合成DNA設(shè)計(jì)等領(lǐng)域的研究視野。
一次可處理百萬個(gè)堿基對
據(jù)深度思維官網(wǎng)介紹,該模型一次可處理多達(dá)100萬個(gè)堿基對,并預(yù)測數(shù)千種分子屬性,包括基因表達(dá)、剪接模式、蛋白質(zhì)結(jié)合位點(diǎn)和染色質(zhì)可及性,覆蓋多種不同類型的細(xì)胞。這是首次有AI系統(tǒng)能聯(lián)合建模如此廣泛的調(diào)控特征。
“阿爾法基因組”訓(xùn)練所用的數(shù)據(jù)集來自多個(gè)公開的超大規(guī)模數(shù)據(jù)資源。令人驚訝的是,訓(xùn)練一個(gè)完整模型僅需4小時(shí),且所需計(jì)算資源僅為前代模型的一半。在26項(xiàng)基準(zhǔn)測試中,其有24項(xiàng)表現(xiàn)優(yōu)于或持平于專用模型。
新模型的一大亮點(diǎn)是其變異評分系統(tǒng),能高效對比突變前后的DNA序列,并跨多種生物通路評估其影響。
“阿爾法基因組”還具備剪接位點(diǎn)建模功能,這是首次有模型能夠預(yù)測與囊性纖維化、脊髓性肌萎縮等疾病相關(guān)的RNA剪接異常。
在合成生物學(xué)領(lǐng)域,“阿爾法基因組”可用于設(shè)計(jì)特定的調(diào)控序列,例如僅在神經(jīng)細(xì)胞中激活某些基因,而在肌肉細(xì)胞中保持沉默。同時(shí),它也有望用于研究生物效應(yīng)強(qiáng)烈的罕見遺傳變異,如導(dǎo)致孟德爾遺傳病的突變。
在一項(xiàng)驗(yàn)證中,研究人員將“阿爾法基因組”應(yīng)用于先前研究中識別出的某種白血病相關(guān)突變。結(jié)果,該模型準(zhǔn)確預(yù)測出,某些非編碼區(qū)變異會間接激活附近的TAL1致癌基因,這一機(jī)制正是T細(xì)胞急性淋巴細(xì)胞白血病中已知的致病過程。
模型尚不適用于個(gè)體診斷
盡管“阿爾法基因組”的表現(xiàn)令人矚目,但深度思維團(tuán)隊(duì)表示,該系統(tǒng)目前仍存在很多限制。它并未設(shè)計(jì)用于個(gè)體基因組解讀,也無法像23andMe或臨床基因檢測那樣預(yù)測疾病風(fēng)險(xiǎn)或祖源信息。也就是說,該模型不適用于個(gè)體診斷或醫(yī)療決策。
“阿爾法基因組”目前的訓(xùn)練數(shù)據(jù)僅限于人類和小鼠,尚未覆蓋其他物種,其跨物種適應(yīng)性尚待驗(yàn)證。同時(shí),它在識別調(diào)控元件與遠(yuǎn)距離靶基因(距離超過10萬個(gè)堿基)之間關(guān)系方面的能力仍較弱,也無法完全建模細(xì)胞在不同狀態(tài)、不同組織中的動態(tài)調(diào)控機(jī)制。
美國冷泉港實(shí)驗(yàn)室計(jì)算生物學(xué)家彼得·庫指出:“這些模型往往是在一個(gè)固定條件下訓(xùn)練的,但現(xiàn)實(shí)中的細(xì)胞是動態(tài)的,蛋白質(zhì)水平、DNA化學(xué)修飾、轉(zhuǎn)錄狀態(tài)等都會隨時(shí)間和環(huán)境變化,這些變化會顯著影響同一段DNA序列的行為。”因此,未來模型需要引入更多“多模態(tài)”“多時(shí)間尺度”因素,才能更真實(shí)地模擬生物過程。
2003年,科學(xué)家首次對人類基因組進(jìn)行測序,揭示了構(gòu)成我們生命“藍(lán)圖”的全部DNA序列。盡管98%的基因組不直接編碼蛋白質(zhì),它們?nèi)陨羁逃绊懼虻恼{(diào)控和細(xì)胞功能。這些非編碼區(qū)域曾被視為“垃圾DNA”,但如今被認(rèn)為可能蘊(yùn)藏著重要的生物學(xué)秘密,就像是基因界的“暗物質(zhì)”。
今年6月25日,“深度思維”公司宣布,他們開發(fā)出一款名為AlphaGenome(阿爾法基因組)的人工智能(AI)模型,有望在破譯這一“暗物質(zhì)”上取得突破。《自然》雜志報(bào)道稱,這一“從序列到功能”的模型能預(yù)測DNA中微小變化會對一系列分子過程產(chǎn)生的影響,為解碼人類基因調(diào)控機(jī)制提供了新路徑。
解釋DNA序列的“一體化”工具
深度思維公司在2020年推出的“阿爾法折疊2”(AlphaFold 2),成功破解了一個(gè)困擾科學(xué)界數(shù)十年的難題:如何根據(jù)蛋白質(zhì)的氨基酸序列,準(zhǔn)確預(yù)測其三維結(jié)構(gòu)。這一突破不僅改變了結(jié)構(gòu)生物學(xué)研究方式,也推動了新藥研發(fā)的進(jìn)程。
相比之下,要理解DNA序列的功能則更加復(fù)雜,因?yàn)樗幌竦鞍踪|(zhì)那樣擁有一個(gè)確定的“正確答案”。這些功能主要體現(xiàn)在DNA對基因表達(dá)的調(diào)控上,比如決定基因什么時(shí)候開啟或關(guān)閉,在哪些細(xì)胞中發(fā)揮作用,以及以何種強(qiáng)度表達(dá)。
如果說蛋白質(zhì)結(jié)構(gòu)預(yù)測是在拼出“零件”的立體模型,那么DNA功能預(yù)測就是要理解說明書中每一個(gè)符號、注釋、開關(guān)命令甚至“暗物質(zhì)”區(qū)域的真正含義。其中涉及的信息層級更復(fù)雜、關(guān)聯(lián)更廣泛,且同一個(gè)DNA片段可能在不同時(shí)間、不同細(xì)胞類型中扮演不同角色,因此建模難度遠(yuǎn)高于蛋白質(zhì)。
幾十年來,生物學(xué)家嘗試用各種計(jì)算工具來揭示DNA復(fù)雜而隱秘的調(diào)控機(jī)制,但這些模型往往聚焦于單一功能。科學(xué)家們渴望一種用于解釋DNA序列的“一體化”工具,于是,“阿爾法基因組”應(yīng)運(yùn)而生。
據(jù)美國趣味工程網(wǎng)站報(bào)道稱,與以往需在“序列長度”與“預(yù)測精度”之間取舍的模型不同,“阿爾法基因組”實(shí)現(xiàn)了二者兼得。它既能捕捉長程基因組上下文信息,又能提供堿基層面的精準(zhǔn)預(yù)測,拓展了疾病生物學(xué)、罕見變異研究、合成DNA設(shè)計(jì)等領(lǐng)域的研究視野。
一次可處理百萬個(gè)堿基對
據(jù)深度思維官網(wǎng)介紹,該模型一次可處理多達(dá)100萬個(gè)堿基對,并預(yù)測數(shù)千種分子屬性,包括基因表達(dá)、剪接模式、蛋白質(zhì)結(jié)合位點(diǎn)和染色質(zhì)可及性,覆蓋多種不同類型的細(xì)胞。這是首次有AI系統(tǒng)能聯(lián)合建模如此廣泛的調(diào)控特征。
“阿爾法基因組”訓(xùn)練所用的數(shù)據(jù)集來自多個(gè)公開的超大規(guī)模數(shù)據(jù)資源。令人驚訝的是,訓(xùn)練一個(gè)完整模型僅需4小時(shí),且所需計(jì)算資源僅為前代模型的一半。在26項(xiàng)基準(zhǔn)測試中,其有24項(xiàng)表現(xiàn)優(yōu)于或持平于專用模型。
新模型的一大亮點(diǎn)是其變異評分系統(tǒng),能高效對比突變前后的DNA序列,并跨多種生物通路評估其影響。
“阿爾法基因組”還具備剪接位點(diǎn)建模功能,這是首次有模型能夠預(yù)測與囊性纖維化、脊髓性肌萎縮等疾病相關(guān)的RNA剪接異常。
在合成生物學(xué)領(lǐng)域,“阿爾法基因組”可用于設(shè)計(jì)特定的調(diào)控序列,例如僅在神經(jīng)細(xì)胞中激活某些基因,而在肌肉細(xì)胞中保持沉默。同時(shí),它也有望用于研究生物效應(yīng)強(qiáng)烈的罕見遺傳變異,如導(dǎo)致孟德爾遺傳病的突變。
在一項(xiàng)驗(yàn)證中,研究人員將“阿爾法基因組”應(yīng)用于先前研究中識別出的某種白血病相關(guān)突變。結(jié)果,該模型準(zhǔn)確預(yù)測出,某些非編碼區(qū)變異會間接激活附近的TAL1致癌基因,這一機(jī)制正是T細(xì)胞急性淋巴細(xì)胞白血病中已知的致病過程。
模型尚不適用于個(gè)體診斷
盡管“阿爾法基因組”的表現(xiàn)令人矚目,但深度思維團(tuán)隊(duì)表示,該系統(tǒng)目前仍存在很多限制。它并未設(shè)計(jì)用于個(gè)體基因組解讀,也無法像23andMe或臨床基因檢測那樣預(yù)測疾病風(fēng)險(xiǎn)或祖源信息。也就是說,該模型不適用于個(gè)體診斷或醫(yī)療決策。
“阿爾法基因組”目前的訓(xùn)練數(shù)據(jù)僅限于人類和小鼠,尚未覆蓋其他物種,其跨物種適應(yīng)性尚待驗(yàn)證。同時(shí),它在識別調(diào)控元件與遠(yuǎn)距離靶基因(距離超過10萬個(gè)堿基)之間關(guān)系方面的能力仍較弱,也無法完全建模細(xì)胞在不同狀態(tài)、不同組織中的動態(tài)調(diào)控機(jī)制。
美國冷泉港實(shí)驗(yàn)室計(jì)算生物學(xué)家彼得·庫指出:“這些模型往往是在一個(gè)固定條件下訓(xùn)練的,但現(xiàn)實(shí)中的細(xì)胞是動態(tài)的,蛋白質(zhì)水平、DNA化學(xué)修飾、轉(zhuǎn)錄狀態(tài)等都會隨時(shí)間和環(huán)境變化,這些變化會顯著影響同一段DNA序列的行為。”因此,未來模型需要引入更多“多模態(tài)”“多時(shí)間尺度”因素,才能更真實(shí)地模擬生物過程。
本文鏈接:http://m.9978217.cn/v-146-2916.html“深度思維”推出“阿爾法基因組”—— 人工智能揭秘DNA中的“暗物質(zhì)”
相關(guān)文章:
實(shí)用的哲理的人生語句100條02-06
草莓發(fā)朋友圈的說說11-23
立秋的經(jīng)典句子08-02
電工實(shí)習(xí)工作總結(jié)800字01-12
話務(wù)員轉(zhuǎn)正工作總結(jié)09-23
房地產(chǎn)私人房貸合同08-15
戶口辦理委托書05-26
入股分紅協(xié)議書08-27
傳遞雷鋒精神的廣播稿02-26
店鋪春節(jié)打烊通知11-30
內(nèi)部競聘簡歷撰寫指南10-26
初中生中秋節(jié)作文300字03-24
公園游記的作文01-19
悲傷的歌詞1條12-23
我渴望自由的作文11-26
湖南2025年3月證券從業(yè)資格準(zhǔn)考證打印時(shí)間:3月19日至3月22日03-10
東北電力大學(xué)哪些專業(yè)適合國家電網(wǎng)09-14
入團(tuán)考試試卷及標(biāo)準(zhǔn)答案07-26
美術(shù)教學(xué)教案07-20
《長安晚秋》原文、翻譯及賞析10-18
集成吊頂廣告語08-31
TVB電視劇臺詞經(jīng)典語句08-16