西湖大學(xué)馬麗佳團(tuán)隊開發(fā)全新深度學(xué)習(xí)模型,精準(zhǔn)預(yù)測SpCas9/gRNA活性及特異性

CRISPR基因編輯技術(shù)自2013年被科學(xué)家首次證明可以在哺乳動物細(xì)胞內(nèi)實現(xiàn)高效的基因組編輯以來,正在徹底改變生物醫(yī)學(xué)基礎(chǔ)研究和臨床研究領(lǐng)域。越來越多的研究者已經(jīng)在包括開發(fā)新型基因編輯工具酶或者優(yōu)化向?qū)NA(gRNA)的設(shè)計方面進(jìn)行了很多嘗試,希望可以借此提高CRISPR的性能。


(資料圖片僅供參考)

利用合成gRNA-靶序列的高通量文庫允許直接在細(xì)胞環(huán)境下中便捷和高通量地收集gRNA活性數(shù)據(jù),由此建立的計算模型來預(yù)測gRNA的活性比較可靠。在以往的研究中,約10000至50000條合成的gRNA-靶序列被用于量化gRNA的靶向效率、特異性或修復(fù)結(jié)果。

然而,人類基因組有6108個具有NGG PAM的潛在gRNA,這導(dǎo)致早期研究中采樣的gRNA覆蓋率僅為0.002%-0.009%。在這個采樣范圍內(nèi),已有的計算工具預(yù)測的gRNA活性和用于建模的實測gRNA活性相關(guān)性約為0.8(Spearman相關(guān)性),還有很大上升空間。并且截至目前,還沒有一個從多個維度預(yù)測gRNA活性(如,gRNA切割活性、gRNA脫靶活性、gRNA切割后基因組修復(fù)的圖譜)的綜合工具。

近日,西湖大學(xué)生命科學(xué)學(xué)院馬麗佳研究員團(tuán)隊在Cell Discovery期刊發(fā)表了題為:Deep sampling of gRNA in the human genome and deep-learning-informed prediction of gRNA activities的研究論文。

該論文介紹了團(tuán)隊開發(fā)的一種基于全新策略構(gòu)建的深度學(xué)習(xí)模型,能有效預(yù)測CRISPR多維gRNA性能。

首先,研究人員將74萬條gRNA(740k文庫)及gRNA靶點序列合成在一條oligo上(每個gRNA靶點序列包括20-nt上游基因組序列、20-nt靶標(biāo)序列、3-nt PAM序列和20-nt下游基因組序列),該文庫除了團(tuán)隊設(shè)計的gRNA之外,還包含多個已發(fā)表的CRISPR KO screening(通過CRISPR系統(tǒng)構(gòu)建基因組文庫進(jìn)行高通量基因敲除篩選)文庫,包括Brunello、GecKOv2、Sabatini、TorontoKoV3和YusaKoV1。740k文庫占人類基因組中所有具有NGG-PAM的gRNA數(shù)量的約0.16%(遠(yuǎn)高于以往研究中0.002%~0.009%的覆蓋率)。隨后通過慢病毒轉(zhuǎn)導(dǎo)入穩(wěn)定表達(dá)SpCas9的人體細(xì)胞系內(nèi),對合成的gRNA靶點序列上下游設(shè)計引物PCR進(jìn)行深度測序即可實現(xiàn)高通量地檢測gRNA的活性,同時還可評估對應(yīng)gRNA切割基因組后,基因組的修復(fù)圖譜(圖1)。

圖1:高通量檢測gRNA體內(nèi)活性策略的流程圖

為了開發(fā)gRNA活性預(yù)測模型,研究人員首先比較了九種機(jī)器學(xué)習(xí)算法,包括七種傳統(tǒng)算法和兩種基于深度學(xué)習(xí)的算法,結(jié)果發(fā)現(xiàn)RNN是在所有測試算法中性能最好,實測的gRNA效率和預(yù)測效率之間的Spearman相關(guān)系數(shù)在0.875到0.911之間。值得注意的是,相比這項研究中使用了74萬條gRNA,以往的研究只用了1萬至5萬條gRNA序列的數(shù)據(jù)進(jìn)行深度學(xué)習(xí)模型構(gòu)建。

那么,在數(shù)據(jù)量和模型性能之間,什么數(shù)據(jù)量是生物學(xué)實驗投入和模型性能獲益之間的最佳值呢?

帶著這個疑問,研究團(tuán)隊又將740k文庫分為8個子庫,分別疊加子文庫行深度模型構(gòu)建,利用十折交叉驗證進(jìn)行評估,最終建立了8組模型,結(jié)果表明隨著文庫大小的增加,8組模型的預(yù)測性能Spearman相關(guān)系數(shù)中位數(shù)從0.810逐漸提高到0.898。在包含超過220k個gRNA后,模型性能趨于平穩(wěn)。本研究給出了gRNA數(shù)據(jù)規(guī)模對提升模型性能的重要參考,對后續(xù)類似工作如何設(shè)計實驗具有重要的指導(dǎo)意義。隨著一系列建模參數(shù)的測試,研究人員最終確定將63bp的序列(23bp靶序列和上游、下游各20bp)作為RNN模型的輸入序列,并將其訓(xùn)練得到的深度學(xué)習(xí)模型命名為“AIdit_ON”(圖2)。

圖2:建立預(yù)測gRNA活性的AIdit_ON模型的流程圖

為了進(jìn)一步評估AIdit_ON模型在不同細(xì)胞類型中的泛化性能,研究人員基于多個公開可用的內(nèi)源數(shù)據(jù)集,比較了AIdit_ON和11個已發(fā)表的計算工具,結(jié)果顯示AIdit_ON模型在所有公共數(shù)據(jù)集中的表現(xiàn)要優(yōu)于所有其他模型(圖3)。同樣地,對于本研究產(chǎn)出的不同細(xì)胞系內(nèi)源的gRNA活性數(shù)據(jù)(293T n=78;K562 n=75;H1 n=71),AIdit_ON模型的表現(xiàn)也優(yōu)于其他模型(圖3)。

圖3:不同數(shù)據(jù)集的indel頻率和12個模型預(yù)測效率之間的Spearman相關(guān)系數(shù)的熱圖

此外,K562和Jurkat細(xì)胞中740k文庫的數(shù)據(jù)集使研究人員能夠進(jìn)一步檢測這兩種細(xì)胞類型中DSB(DNA雙鏈斷裂)誘導(dǎo)的基因組修復(fù)結(jié)果。在仔細(xì)分析Jurkat和K562細(xì)胞的DSB修復(fù)圖譜時候,研究人員有了意外的發(fā)現(xiàn)。在K562中,超過65%的SpCas9/gRNA誘導(dǎo)的DSBs被修復(fù)為缺失類型(Deletion),這與以往研究的大多數(shù)細(xì)胞類型中發(fā)現(xiàn)的現(xiàn)象一致。相反,插入(Insertion)在Jurkat細(xì)胞中占主導(dǎo)地位(大于60%)(圖4)。研究人員大膽假設(shè),Jurkat細(xì)胞的一種獨特特性可能是導(dǎo)致Insertion主導(dǎo)修復(fù)結(jié)果的原因。經(jīng)過驗證,研究人員證實了他們的猜想,他們找到了一個在Jurkat特異性高表達(dá)的基因DNTT,該基因是控制Jurkat中DSB修復(fù)的主導(dǎo)基因。敲除Jurkat中的DNTT會改變其修復(fù)結(jié)果,使其與K562細(xì)胞的修復(fù)結(jié)果更相似。相反,在K562細(xì)胞中過表達(dá)DNTT時,Insertion成為最主要的DSB修復(fù)圖譜。這些數(shù)據(jù)表明,由SpCas9/gRNA介導(dǎo)的DSB誘導(dǎo)的修復(fù)結(jié)果是DNTT依賴性的。

為構(gòu)建精準(zhǔn)預(yù)測DSB修復(fù)圖譜模型,研究人員首先為每個修復(fù)類別訓(xùn)練了一個單獨的XGBoost模型,這些模型的輸出結(jié)合序列特征和微同源特征成為最終模型訓(xùn)練的特征。在K562數(shù)據(jù)上訓(xùn)練的模型被命名為AIdit_DSB_K562,在Jurkat數(shù)據(jù)上訓(xùn)練過的模型被稱為AIdit_DSB_Jurkat。為了評估模型的泛化性能,研究人員比較了已公開發(fā)表的預(yù)測模型ForeCasT和Lindel,在所有非Jurkat細(xì)胞系的測試數(shù)據(jù)集中,AIdit_DSB_K562模型的表現(xiàn)優(yōu)于Lindel和ForeCasT模型?;趶牟煌凳占钠渌矓?shù)據(jù)集的結(jié)果,包括REP1、CHO、E14TG2A和HAP1,也證明了AIdit_DSB_K562模型的優(yōu)越性能。AIdit_DSB_Jurkat對非Jurkat數(shù)據(jù)的預(yù)測效力低,但在Jurkat測試數(shù)據(jù)集中實現(xiàn)了高精準(zhǔn)的預(yù)測。根據(jù)DSB修復(fù)的DNTT依賴性,后續(xù)研究人員可以用DNTT的表達(dá)量來指導(dǎo)模型選擇和預(yù)測不同細(xì)胞類型特異的SpCas9/gRNA DSB修復(fù)圖譜。這個重要現(xiàn)象的發(fā)現(xiàn),解釋了有些情況下模型預(yù)測性能無法在不同細(xì)胞類型中實現(xiàn)泛化的原因,其實是背后的基本生物學(xué)原理決定的。這也提示生物學(xué)數(shù)據(jù)指導(dǎo)下的AI模型,既需要產(chǎn)生足夠的、與問題直接相關(guān)的數(shù)據(jù),也需要考量有生物學(xué)意義的參數(shù)。

圖4:SpCas9誘導(dǎo)的DSB修復(fù)類型在Jurkat WT, Jurkat DNTT-KO,K562 WT和K562 DNTT-OE細(xì)胞中的分布。

最后,研究人員應(yīng)用了類似的策略來衡量SpCas9/gRNA在非匹配靶序列上的脫靶活性。研究人員設(shè)計了一個包含180萬條gRNA脫靶序列的文庫(180k),并基于該文庫產(chǎn)生的高通量測序數(shù)據(jù)構(gòu)建了預(yù)測SpCas9/gRNA脫靶活性的機(jī)器學(xué)習(xí)模型,即AIdit_OFF。結(jié)果表明,在多個GUIDE-seq測試數(shù)據(jù)集上相對于應(yīng)用較廣的CFD模型,AIdit_OFF無論特異性還是召回率表現(xiàn)的都更好,且將預(yù)測gRNA脫靶位點的精準(zhǔn)率平均提高了2.6倍。

推薦DIY文章
B組決賽和A組有什么區(qū)別 A組決賽四人爭取第一至第四名
每日速看!青蛙長期在水里會淹死嗎 青蛙能一直在水里呼吸嗎?
環(huán)球今亮點!來沈陽必去的十大飯店推薦 第四季拉面雞架好不好吃
當(dāng)前播報:魔獸世界地下的威脅 失去最后一個boss后玩家會獲得什么
速看:nba2k9怎么空接扣籃 兩者之間沒有對方后衛(wèi)的時間怎么辦
【世界熱聞】西班牙簽證所需材料清單來了 提交時需要提前預(yù)約嗎?
精彩新聞

超前放送