av网站播放,国产一级特黄毛片在线毛片,久久精品国产99精品丝袜,天天干夜夜要,伊人影院久久,av大全免费在线观看,国产第一区在线

一種基于多模態(tài)特征融合的聚類宏基因組序列的方法、系統(tǒng)、設(shè)備及存儲介質(zhì)

文檔序號:42300094發(fā)布日期:2025-06-27 18:41閱讀:6來源:國知局

本發(fā)明涉及宏基因組序列聚類,具體為一種基于多模態(tài)特征融合的聚類宏基因組序列的方法、系統(tǒng)、設(shè)備及存儲介質(zhì)。


背景技術(shù):

1、傳統(tǒng)的基因測序技術(shù)主要依賴于模式生物或人工培養(yǎng)的生物體,但對于那些難以在實驗室條件下培養(yǎng)的物種(如土壤和水體中的大量微生物),基因信息的獲取仍然困難重重,導(dǎo)致自然環(huán)境中大量遺傳信息尚處于空白狀態(tài)。精準(zhǔn)繪制細(xì)菌和古細(xì)菌的基因組圖譜,是深入研究其系統(tǒng)分類、微生物進化、生態(tài)功能及群落結(jié)構(gòu)的基礎(chǔ)和關(guān)鍵。

2、隨著高通量測序技術(shù)和宏基因組拼裝方法的不斷進步,從復(fù)雜環(huán)境樣本中恢復(fù)微生物基因組序列成為可能。然而,真實環(huán)境樣本中的微生物組成復(fù)雜多樣,測序所得的宏基因組數(shù)據(jù)往往高度碎片化,極大地增加了基因組組裝和分析的難度?,F(xiàn)有的一種常見策略是將這些碎片化序列與已知數(shù)據(jù)庫進行比對,從而獲取分類標(biāo)簽。但受限于目前數(shù)據(jù)庫的覆蓋度——已完成測序的微生物基因組僅占已知物種的2.1%,其中完整入庫的基因組序列更是寥寥無幾——這一方法的適用性和有效性大打折扣。因此,迫切需要開發(fā)新方法,以更有效地挖掘和利用微生物測序數(shù)據(jù)。

3、基于聚類思想,將碎片化序列整合并重建至基因組水平,是當(dāng)前較為理想的解決方案。常用的聚類特征包括序列的核苷酸組成(k-mer?頻率)以及測序數(shù)據(jù)的覆蓋度信息。k-mer?頻率具有物種特異性,而樣本中微生物的相對豐度及基因組中單拷貝基因的分布也為聚類分析提供了重要參考。盡管已有多種聚類方法應(yīng)用于宏基因組數(shù)據(jù)分析,但仍然面臨諸多挑戰(zhàn),如模型擬合不足、算法設(shè)計尚不完善等,而這些問題直接導(dǎo)致聚類后重建的基因組完整性不足、污染度較高、計算速度過慢,從而影響了微生物基因組信息的準(zhǔn)確獲取和后續(xù)分析。

4、因此,開發(fā)更為高效、精準(zhǔn)的微生物序列聚類算法,不僅對基因組研究具有重要意義,也對宏基因組學(xué)的發(fā)展產(chǎn)生深遠(yuǎn)影響。


技術(shù)實現(xiàn)思路

1、針對現(xiàn)有技術(shù)中宏基因組數(shù)據(jù)分析因模型擬合不足、算法不完善而導(dǎo)致聚類后基因組完整性不足、污染度較高進而導(dǎo)致微生物基因組信息獲取不準(zhǔn)確的問題,本發(fā)明提供一種基于多模態(tài)特征融合的聚類宏基因組序列的方法、系統(tǒng)、設(shè)備及存儲介質(zhì)。

2、本發(fā)明是通過以下技術(shù)方案來實現(xiàn):

3、一種基于多模態(tài)特征融合的聚類宏基因組序列的方法,包括以下步驟:

4、p1,輸入宏基因組測序序列;

5、p2,從輸入的宏基因組測序序列中選擇符合要求的基因序列在狄利克雷過程高斯混合模型中進行聚類;

6、p3,當(dāng)p2中所得的聚類數(shù)量滿足聚類數(shù)量k≥100時,轉(zhuǎn)入步驟p2,不滿足時轉(zhuǎn)入步驟p4;

7、p4,當(dāng)p3轉(zhuǎn)入的序列滿足聚類數(shù)量k=1時,輸出聚類結(jié)果;若不滿足,轉(zhuǎn)入稀疏親和圖模型進行處理,當(dāng)稀疏親和圖模型輸出的序列滿足聚類數(shù)量k=1時,輸出聚類結(jié)果,不滿足時繼續(xù)轉(zhuǎn)入稀疏親和圖,直至滿足聚類數(shù)量k=1輸出聚類結(jié)果。

8、優(yōu)選的,符合要求的基因序列為大于2kb的長基因序列。

9、優(yōu)選的,p4中,稀疏親和圖模型是基于k-mer頻率概率模型和基于kl散度的覆蓋度概率模型建立的。

10、優(yōu)選的,稀疏親和圖模型的建立步驟如下:

11、p411,基于scg?(單拷貝標(biāo)記基因集)數(shù)據(jù)庫,從輸入的宏基因組測序序列篩選出目標(biāo)scgs,并與宏基因組測序數(shù)據(jù)匹配,獲得種子序列作為訓(xùn)練集;

12、p412,基于不同長度測序讀數(shù)k-mer頻率概率模型和基于kl散度的覆蓋度概率預(yù)測模型構(gòu)建加權(quán)幾何平均的親和力圖,并將權(quán)重參數(shù)w在0到1的范圍內(nèi)以0.1為步長逐步增加;

13、p413,使用標(biāo)簽傳播算法將種子序列標(biāo)簽擴展到親和力圖中的其他節(jié)點,從而為更多序列分配初步的標(biāo)簽;在標(biāo)簽傳播后,使用scg評分模型對生成的種子集進行評分,并計算分區(qū)的質(zhì)量;

14、p414,針對親和力圖中的每個節(jié)點,僅保留權(quán)重最高的十條邊,得到稀疏親和力圖,并再次應(yīng)用?lpa,進一步擴展標(biāo)簽信息,實現(xiàn)高精度的半監(jiān)督聚類。

15、優(yōu)選的,p412中,基于k-mer頻率概率模型的建立過程為:

16、p4121:提取宏基因組樣本中每條序列的k-mer頻率特征,并計算來自相同/不同物種的序列間歐氏距離分布;其中,k-mer頻率即寡聚核苷酸頻率,k=4;

17、p4122:根據(jù)p4121中所得k-mer頻率分布模型,構(gòu)造基于貝葉斯分類器的k-mer分類模型,并利用邏輯回歸針對不同長度區(qū)間的測序序列分別擬合對應(yīng)的分布參數(shù),獲得最終的k-mer頻率概率模型。

18、優(yōu)選的,p412中,覆蓋度概率預(yù)測模型的建立過程為:

19、p4121,提取宏基因組樣本中每條序列的測序覆蓋度,并計算覆蓋度均值和方差;

20、p4122,基于p4121所得的均值和方差,構(gòu)建高斯分布,并通過計算序列間測序覆蓋度所構(gòu)成高斯分布的kl散度,構(gòu)建覆蓋度概率模型。

21、優(yōu)選的,在p4中,使用cami提供的基準(zhǔn)評估系統(tǒng)對產(chǎn)生的所有聚類結(jié)果進行評估。

22、一種基于多模態(tài)特征融合的聚類宏基因組序列的系統(tǒng),包括數(shù)據(jù)輸入模塊、數(shù)據(jù)處理模塊、模型建立模塊和數(shù)據(jù)輸出模塊,數(shù)據(jù)輸入模塊用于接收輸入的宏基因組測序序列,數(shù)據(jù)處理模塊用于對輸入的宏基因組測序序列進行聚類,模型建立模塊用于建立稀疏親和圖模型,數(shù)據(jù)輸出模塊用于輸出聚類結(jié)果。

23、一種電子設(shè)備,包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)所述的方法的步驟。

24、一種存儲介質(zhì),其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)所述的方法的步驟。

25、與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:

26、本發(fā)明一種基于多模態(tài)特征融合的聚類宏基因組序列的方法通過結(jié)合狄利克雷過程高斯混合模型和稀疏親和圖模型,在聚類過程中,系統(tǒng)能夠根據(jù)聚類數(shù)量動態(tài)調(diào)整處理策略(如是否轉(zhuǎn)入稀疏親和圖模型),確保最終聚類結(jié)果滿足要求(k=1),適應(yīng)不同規(guī)模的宏基因組數(shù)據(jù)集,實現(xiàn)對宏基因組數(shù)據(jù)的高效、精準(zhǔn)聚類,能夠充分發(fā)掘宏基因組測序數(shù)據(jù)的所包含的信息,最大程度上利用測序數(shù)據(jù)所包含的生物學(xué)特征進行有效聚類,并通過分層聚類的方法降低計算復(fù)雜度,加速聚類過程。在測試數(shù)據(jù)集與真實世界數(shù)據(jù)集上獲得更加精確且數(shù)量更多的數(shù)據(jù)。經(jīng)驗證,本發(fā)明所提出的聚類方法可以聚類其他方法無法識別的序列,并形成更加完整的宏基因組圖譜,為后續(xù)分析打下堅實基礎(chǔ)。

27、進一步的,稀疏親和圖模型通過融合k-mer頻率概率模型和基于kl散度的覆蓋度概率模型充分利用了序列的組成特征(k-mer頻率)和覆蓋度特征(測序深度),能夠更全面地反映序列的生物學(xué)特性,從而提高聚類的準(zhǔn)確性。

28、進一步的,稀疏親和圖模型保留了權(quán)重最高的十條邊,減少了噪聲干擾,進一步提升了聚類的精度。同時,結(jié)合標(biāo)簽傳播算法(lpa)和scg評分模型,能夠有效擴展標(biāo)簽信息,實現(xiàn)高精度的半監(jiān)督聚類。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1