av网站播放,国产一级特黄毛片在线毛片,久久精品国产99精品丝袜,天天干夜夜要,伊人影院久久,av大全免费在线观看,国产第一区在线

通過模型預(yù)測流感抗原的方法及應(yīng)用的制作方法

文檔序號:6600795閱讀:757來源:國知局

專利名稱::通過模型預(yù)測流感抗原的方法及應(yīng)用的制作方法
技術(shù)領(lǐng)域
:本發(fā)明涉及一種流感抗原預(yù)測技術(shù),尤其涉及一種通過模型預(yù)測流感抗原的方法及應(yīng)用。
背景技術(shù)
:流感病毒是一種全球流行的病毒,它每年感染300500萬人,其中有2550萬人死亡,對人類社會造成巨大危害。流感病毒分A、B、C三個型,A型和B型對人威脅較大,其中A型流感抗原變異頻繁,對人類威脅最大。自1968年進入人群后,H3N2亞型流感病毒在人群里占主導(dǎo)地位。H3N2亞型流感病毒基因組包含8個片段,編碼11個蛋白,其中HA跟NA是主要的表面抗原蛋白。相對于其它基因,HA變異最快,使得抗原不斷發(fā)生變化。注射疫苗是目前最有效防治流感的辦法之一,由于流感病毒不斷發(fā)生改變,所以必須不斷更新疫苗成分。目前,世界衛(wèi)生組織(WHO)通過與全球四個流感參比和研究合作中心及不同國家/地區(qū)的流感監(jiān)測中心緊密合作,實時監(jiān)測流感的抗原變化情況,并在每年二月(針對北半球)以及九月(針對南半球)通過評估全球流感流行情況推薦下一個流行季使用的疫苗株,指導(dǎo)疫苗的生產(chǎn)。但受人H3N2流感病毒的全球傳播規(guī)律影響,疫苗株在不同地區(qū)的效果存在差異。對于源頭地區(qū),例如東亞、東南亞地區(qū),因為新的抗原優(yōu)勢株在這個地區(qū)先出現(xiàn)并流行,使得現(xiàn)行推薦疫苗株對這個地區(qū)的保護性很差。最理想的情況是各個地區(qū)進行抗原監(jiān)測,針對不同地區(qū)的差別分別推薦疫苗株。目前,使用HI(血凝抑制反應(yīng))的方法對抗原進行檢測,但這種方法費時、費力,而且有時候不夠靈敏。H3N2病毒無休止地對人體免疫系統(tǒng)的逃避,使得其進化路徑沿著一個主干行進,在進化樹上表現(xiàn)為一條主干的進化模式,而其主干上的位點變化對其抗原性的進化起主要作用。其中,不同位點對抗原改變的貢獻是不盡相同的,有的位點貢獻大,而有的位點貢獻相對小,但更多時候,抗原的改變是多個位點協(xié)同變化的結(jié)果。H3N2病毒HA上存在五個抗原表位,是免疫系統(tǒng)抗體的主要識別區(qū)域,這些區(qū)域上的位點變化對于流感病毒抗原改變有顯著的貢獻。現(xiàn)有技術(shù)中,先找出跟抗原相關(guān)的位點,即所謂正選擇位點,然后建立不同的位點模型來模擬和預(yù)測抗原變異。這些方法都有一定的預(yù)測能力,或多或少抓住了人H3N2流感病毒進化的一些規(guī)律。據(jù)目前的研究表明,影響抗原的所謂正選擇位點是隨時間變化的,即使是同一個位點,其結(jié)構(gòu)背景不同,其變化的效果可能完全不一樣。因此,這些基于位點的預(yù)測方法的缺點很明顯對應(yīng)時間段得到的規(guī)律只適用于對應(yīng)時間段的數(shù)據(jù),用到其他時間段上效果就會很差。
發(fā)明內(nèi)容本發(fā)明的目的是提供一種簡單、方便、靈敏度高的通過模型預(yù)測流感抗原的方法及應(yīng)用。本發(fā)明的目的是通過以下技術(shù)方案實現(xiàn)的本發(fā)明通過模型預(yù)測流感抗原的方法,包括通過以下表1和式(1)構(gòu)建的模型預(yù)測病毒對之間抗原相似還是抗原變異抽提影響流感抗原的12個特征五個抗原決定簇氨基酸的突變個數(shù)、HA蛋白氨基酸的五個理化特性、影響受體結(jié)合因素、糖基化位點改變的個數(shù),所述HA蛋白氨基酸的五個理化特性包括疏水性、體積變化、帶電性、極性、可積表面積;對3681對已知抗原相似的病毒對和1720對抗原變異的病毒對的上述12個特征進行統(tǒng)計,得到表1:表1中的數(shù)據(jù)分別表示抗原相似的病毒對的特征改變大和小的數(shù)量及抗原變異的病毒對的特征改變大和小的數(shù)量;式中Poddsrati。表示優(yōu)勝率,P。ddsrati0<1時被預(yù)測的病毒對抗原相似,P。ddsrati0>1時被預(yù)測的病毒對抗原變異;Xj,-表示待預(yù)測的病毒對的第j個特征改變情況,Xj,new以及P。ddsrati。通過以下方法計算首先,分別對所述影響流感抗原的12個特征進行量化,并分別取以下閾值0、2、0、1、0、1·82,54.667,2.493,34.867,0.098,113.607,1;然后,對被預(yù)測病毒對的12個特征分別進行比較,當(dāng)二者的特征差異小于其對應(yīng)的閾值時,對應(yīng)表1第j個特征在抗原相似的病毒對中特征改變小的數(shù)量,對應(yīng)表ι第j個特征在抗原變異的病毒對中特征改變小的數(shù)量;當(dāng)二者的差異大于或等于其對應(yīng)的閾值時,對應(yīng)表1第j個特征在抗原相似的病毒對中特征改變大的數(shù)量,對應(yīng)表ι第j個特征在抗原變異的病毒對中特征改變大的數(shù)量。本發(fā)明的上述通過模型預(yù)測流感抗原的方法的應(yīng)用,用于構(gòu)建抗原關(guān)系網(wǎng)絡(luò)通過預(yù)測病毒對之間抗原相似還是抗原變異的關(guān)系,建立所有病毒之間的抗原關(guān)系網(wǎng)絡(luò),把每個病毒作為節(jié)點,把抗原相似的病毒之間給一個連線,構(gòu)成所述抗原關(guān)系網(wǎng)絡(luò)。由上述本發(fā)明提供的技術(shù)方案可以看出,本發(fā)明所述的通過模型預(yù)測流感抗原的方法及應(yīng)用,通過抽提一些反映抗體抗原相互作用破壞程度的特性,建立一個抗原關(guān)系的預(yù)測模型,單純從序列出發(fā),就能給出病毒之間的抗原關(guān)系,簡單、方便、靈敏度高。通過網(wǎng)絡(luò)的方式能夠形象的展示抗原進化的過程。圖1為本發(fā)明中模型構(gòu)建的技術(shù)路線示意圖;圖2為本發(fā)明中抗原關(guān)系預(yù)測結(jié)構(gòu)模型示意圖。具體實施例方式本發(fā)明的通過模型預(yù)測流感抗原的方法,其較佳的具體實施方式是,包括通過以下表1和式(1)構(gòu)建的模型預(yù)測病毒對之間抗原相似還是抗原變異抽提影響流感抗原的12個特征五個抗原決定簇氨基酸的突變個數(shù)、HA蛋白氨基酸的五個理化特性、影響受體結(jié)合因素、糖基化位點改變的個數(shù),所述HA蛋白氨基酸的五個理化特性包括疏水性、體積變化、帶電性、極性、可積表面積;對3681對已知抗原相似的病毒對和1720對抗原變異的病毒對的上述12個特征進行統(tǒng)計,得到表132]表1中的數(shù)據(jù)分別表示抗原相似的病毒對的特征改變大和小的數(shù)量及抗原變異的病毒對的特征改變大和小的數(shù)量;Poddsrati。表示優(yōu)勝率,P。ddsrati0<1時被預(yù)測的病毒對抗原相似,P。ddsrati0>1時被預(yù)測的病毒對抗原變異;Xj,new表示待預(yù)測的病毒對的第j個特征改變情況,Xj,new以及P。ddsrati。通過以下方法計算首先,分別對所述影響流感抗原的12個特征進行量化,并分別取以下閾值0、2、0、1、0、1·82,54.667,2.493,34.867,0.098,113.607,1;然后,對被預(yù)測病毒對的12個特征分別進行比較,當(dāng)二者的特征差異小于其對應(yīng)的閾值時,Xj,new=0,對應(yīng)表1第j個特征在抗原相似的病毒對中特征改變小的數(shù)量,>1=0對應(yīng)表ι第j個特征在抗原變異的病毒對中特征改變小的數(shù)量;當(dāng)二者的差異大于或等于其對應(yīng)的閾值時,Xj,new=1,對應(yīng)表1第j個特征在抗原相似的病毒對中特征改變大的數(shù)量,對應(yīng)表ι第j個特征在抗原變異的病毒對中特征改變大的數(shù)量。^=I所述的3681對已知的抗原相似的病毒對和1720對抗原變異的病毒對可以通過以下方法得到(也可以通過其它的方法得到)已知Smith等人把1968年到2003年間的253株人H3N2流感病毒劃分成11個抗原類;對于這253株病毒,如果兩個病毒處于同一抗原類,就認為它們是抗原相似株;如果這兩個病毒處于不同的抗原類,就認為他們是抗原變異株,得到31878對兩兩病毒間的抗原關(guān)系;選取兩兩病毒HAl蛋白序列差異數(shù)介于1-9的病毒對。所述的閾值通過對所述的3681對已知的抗原相似的病毒對和1720對抗原變異的病毒對進行統(tǒng)計得到。本發(fā)明的上述的通過模型預(yù)測流感抗原的方法的應(yīng)用,用于構(gòu)建抗原關(guān)系網(wǎng)絡(luò)通過預(yù)測病毒對之間抗原相似還是抗原變異的關(guān)系,建立所有病毒之間的抗原關(guān)系網(wǎng)絡(luò),把每個病毒作為節(jié)點,把抗原相似的病毒之間給一個連線,構(gòu)成所述抗原關(guān)系網(wǎng)絡(luò)。還包括對所述抗原關(guān)系網(wǎng)絡(luò)進行聚類。所述抗原關(guān)系網(wǎng)絡(luò)的聚類包括抽提出所述抗原關(guān)系網(wǎng)絡(luò)中的局部連接密度比較大的區(qū)域,作為抗原相似簇;所述抗原關(guān)系網(wǎng)絡(luò)的聚類可以通過MCL方法(TheMarkovClusterAlgorithm,馬爾可夫聚類算法),也可以采用其它的方法;具體可以用于揭示流感傳播規(guī)律。還可以用于按以下原則進行疫苗候選株的篩選當(dāng)有新的抗原相似簇出現(xiàn),并且新的抗原相似簇所占比例不斷增加,則選擇該抗原相似簇作為疫苗株候選;如果有多個新抗原相似簇同時滿足上面條件,則選擇變化更顯著的抗原相似簇作為疫苗候選株。本發(fā)明中的模型是通過以下方法得到首先,構(gòu)建訓(xùn)練數(shù)據(jù)集Smith等人,把1968年到2003年間的253株人H3N2流感病毒劃分成11個抗原類。通過如下原則構(gòu)建訓(xùn)練模型需要的訓(xùn)練數(shù)據(jù)集。對于這253株病毒,如果兩個病毒處于同一抗原類,就認為它們是抗原相似株;而如果這兩個病毒處于不同的抗原類,就認為他們是抗原變異株,這樣可以得到31878對兩兩病毒間的抗原關(guān)系。但這其中包含太多抗原變異病毒對的數(shù)據(jù),會影響模型構(gòu)建,因此選取兩兩病毒HAl蛋白序列差異數(shù)介于1-9的病毒對構(gòu)建訓(xùn)練數(shù)據(jù)集,包括3681對抗原相似病毒對,以及1720對抗原變異病毒對。然后,進行特征選擇基于流感病毒抗原改變的結(jié)構(gòu)本質(zhì)抽提了12個特征用于構(gòu)建抗原關(guān)系預(yù)測模型。這些特征包括每個抗原決定簇的氨基酸突變個數(shù)(共五個抗原決定簇),五種氨基酸理化特性(疏水性、體積、帶電性、極性、可積表面積),對受體結(jié)合影響,還有就是糖基化位點的改變。之后,對特征量化,并對特征離散給定一個特定的病毒對,就可以通過比較它們的HAl氨基酸序列的差異,計算出上面提到的12個的特性的量化值。本發(fā)明中的模型最終只給出給定的兩個病毒抗原是變了還是沒變(及兩個狀態(tài)0/1,分別代表抗原相似以及抗原變異),所有特征也離散成改變大小兩個狀態(tài)(0/1,分別代表特性改變不能導(dǎo)致抗原改變以及能夠?qū)е驴乖淖?。對于每一個特征,離散的原理就是找到一個閾值,使得以這個閾值為界對訓(xùn)練數(shù)據(jù)集中的病毒抗原關(guān)系對進行劃分,劃分的結(jié)果跟真實的抗原關(guān)系匹配最好。通過訓(xùn)練數(shù)據(jù)集學(xué)到的1-12特征的離散化閾值0、2、0、1、0、1·82,54.667,2.493,34.867,0.098,113.607、1。最后,進行模型構(gòu)建通過構(gòu)建12個特征的樸素貝葉斯模型(NaiveBayesModel)來預(yù)測給定病毒對的抗原關(guān)系。假定選取的特征滿足伯努利模型(BernoulliModel),先檢驗分布滿足正態(tài)分布,由貝葉斯理論,可以得到給定病毒對的抗原關(guān)系P。ddsrati。(抗原改變比上抗原不改變的比率)其中Ji表示訓(xùn)練數(shù)據(jù)集中第i對病毒對的抗原關(guān)系(0/1,分別表示抗原相似跟抗原變異)。Xu表示訓(xùn)練數(shù)據(jù)集中第i對病毒第j個特性離散值(0/1,分別代表特性改變不能導(dǎo)致抗原改變以及能夠?qū)е驴乖淖?。m表示我們抽提得到的12個特征(m=12)。計算針對整個訓(xùn)練數(shù)據(jù)進行,其實訓(xùn)練數(shù)據(jù)集給出的就是特性改變跟抗原改變的關(guān)系,也即訓(xùn)練集抽提如表1所示??梢缘玫綉B(tài),進而得到式⑴;給定一對病毒,通過12個特征,如果P。ddsrati0>1,抗原變異否則抗原相似。具體計算實例給定一對病毒A/Fujian/411/2002跟A/HongKong/1186/2003;其HAl的氨基酸差異包括124(S->N),138(A->S),193(S->N),226(V->I),227(S->P),根據(jù)每個特征的閾值,可以得到每個特征的改變大小情況,即Xnev=(X1,new,…,X12jnew)為(1,0,0,0,0,0,0,0,0,0,1,0)然后根據(jù)表1和式(1)計算得到J720156792014649913518111721420415561708、=0.00042565940779因為P。ddsrati0<1,因此我們預(yù)測A/Fujian/411/2002根A/HongKong/1186/2003抗原相似??乖淖兓举|(zhì)上因為位點變化導(dǎo)致抗體抗原的相互作用發(fā)生變化,而單純基于具體位點的模型顯然不能反映這個本質(zhì)。本發(fā)明從結(jié)構(gòu)角度考慮,抽提一些反映抗體抗原相互作用破壞程度的特性,建立一個抗原關(guān)系的預(yù)測模型,單純從序列出發(fā),就能給出病毒之間的抗原關(guān)系。通過網(wǎng)絡(luò)的方式能夠形象的展示抗原進化的過程。通過預(yù)測抗原關(guān)系以及相關(guān)分析,可以得到中國大陸人H3N2流感病毒進化的規(guī)律,揭示優(yōu)勢抗原由南方到北方的傳播規(guī)律。還可以更加細致分析亞洲不同地區(qū)流感的傳播規(guī)律,揭示出亞洲熱帶、亞熱帶地區(qū)的流感傳播的源頭地位。能夠有效監(jiān)測抗原狀態(tài),進行疫苗候選株篩選。如應(yīng)用到中國大陸地區(qū),篩選出的疫苗候選株能夠有效保護這個地區(qū)人群。而考慮到人H3N2流感病毒的全球傳播趨勢,這種基于起源地的抗原監(jiān)測以及疫苗候選株篩選技術(shù)對流感防治意義重大。下面對本發(fā)明的原理和模型構(gòu)建的過程進行詳細的論述具體如圖1所示,包括1、首先以Smith數(shù)據(jù)建立訓(xùn)練數(shù)據(jù)集,下載序列并抽提特征及量化,將特征離散化,建立抗原預(yù)測模型,驗證模型,構(gòu)建抗原關(guān)系網(wǎng)絡(luò),最后進行網(wǎng)絡(luò)聚類。2、序列數(shù)據(jù)從GenBank下載所有人H3N2流感病毒的HA蛋白質(zhì)序列,截取其HAl區(qū)域,除去較短病毒序列(<IOOaa)以及一些特殊序列(相對于所有病毒變化比較顯著以及可能年代上標注錯誤),共得到7297條病毒蛋白質(zhì)序列,其中4711條有月份信息,這些病毒序列按照其采集地劃分到不同的區(qū)域。另外,基于國家流感中心的流感監(jiān)測網(wǎng)絡(luò),收集并測序中國大陸范圍的932條病毒,其中506條有月份信息,加上從公共數(shù)據(jù)庫中收集的中國大陸地區(qū)的序列數(shù)據(jù),共得到中國大陸地區(qū)病毒序列1339條,其中705條有月份信息。另外根據(jù)病毒分離地點的不同對病毒的爆發(fā)區(qū)域進行劃分,以秦嶺淮河一線把中國劃分成南北方。3、訓(xùn)練數(shù)據(jù)集Smith等,對1968年到2003年間的253株人H3N2流感病毒進行抗原測定并最終劃分成11個抗原類,代表這段時間內(nèi)全世界人H3N2流感病毒進化過程。按照如下的原則從文中抽提訓(xùn)練數(shù)據(jù)集如果兩個病毒處于同一抗原類,就認為它們抗原相似;而如果這兩個病毒處于不同的抗原類,就認為他們抗原改變。同時,考慮到大于九個位點的氨基酸突變就會產(chǎn)生抗原改變,數(shù)據(jù)集中包含太多的這類數(shù)據(jù)會對模型造成影響,因此只保留小于等于九個位點突變的數(shù)據(jù)。最終從這套數(shù)據(jù)中抽提得到的訓(xùn)練數(shù)據(jù)集包含多對病毒的抗原關(guān)系,通過比較對應(yīng)病毒對的HAl序列得到。4、特征抽提及其量化抗原的改變本質(zhì)上是抗體抗原相互作用的變化,因此按照經(jīng)驗以及數(shù)據(jù)分析抽提得到四組12個特性來反映抗原關(guān)系的改變第一組特性包括五個特性,它們分別是流感HA上五個抗原決定簇的位點改變個數(shù)。這些特性廣泛被人們所接受,主要反映了抗體結(jié)合區(qū)域的位點變化對抗原的影響;第二組特性也包含五個特性,這些特性主要從氨基酸變化對物理學(xué)直接相互作用破壞程度上來考慮,它們分別是疏水性、體積、帶電性、極性和可積表面積;另外,受體結(jié)合區(qū)域及其周圍區(qū)域位點的變化,將影響抗原的變化。這主要是兩方面的疊加效應(yīng)起作用首先,受體結(jié)合區(qū)域及其周圍區(qū)域的位點變化,將導(dǎo)致原來能結(jié)合到這個區(qū)域的抗體不能再結(jié)合,從而產(chǎn)生抗原變化;另外,抗體不能結(jié)合也為病毒更有效的結(jié)合宿主細胞表面的受體,為病毒的傳播提供有利條件,這種適應(yīng)性的優(yōu)勢將使對應(yīng)抗原變異株更容易成為抗原優(yōu)勢株?;谝陨戏治?,把影響受體結(jié)合作為第三組特性;糖基化位點的變化也將影響抗體與流感HA的相互作用,因而也將影響抗原的改變,把其作為第四組特性。為了表征每個特性對抗原影響的程度,首先對它們進行量化第一組的五個特性的變化直接用對應(yīng)抗原決定簇氨基酸改變個數(shù)來表示;第二組中不同氨基酸物理化學(xué)特性的變化,可以從AAindex(氨基酸指數(shù))數(shù)據(jù)庫中抽提。AAindex是一個代表各種理化和氨基酸及氨基酸對生化特性的數(shù)值指標數(shù)據(jù)庫,其中需要的特性分別是代表疏水性的FASG890101、代表體積變化的GRAR740103、代表帶電性的ZIMJ680104、代表極性的CHAM820101以及代表可積表面變化的JANJ780101;用距離受體結(jié)合區(qū)域的遠近來度量第三組特性,但這要求首先要確定受體結(jié)合區(qū)域。應(yīng)該說,從不同位點到受體結(jié)合區(qū)域的距離這個角度來講,人H3N2流感病毒的HA的結(jié)構(gòu)變化不大,因此用早期的H3N2結(jié)構(gòu)(pdb1MQN)為模板來計算。受體結(jié)合區(qū)域由三個結(jié)構(gòu)元件組成135138的loop(環(huán))、190198的helix(螺旋)以及221228的loop。以這三個結(jié)構(gòu)元件出發(fā),結(jié)合模板結(jié)構(gòu),確定131138、155160、186196以及218228為受體結(jié)合區(qū)域。任意位點對受體結(jié)合的影響用這個位點到受體結(jié)合區(qū)域的最短距離來表示,但為了體現(xiàn)影響大小與距離大小的關(guān)系,用HA上所有位點距離受體結(jié)合區(qū)域的最遠距離減去這個距離來表示,這樣距離受體結(jié)合區(qū)域越近,其影響受體結(jié)合的數(shù)值就越大。以上第二組以及第三組特性的計算取兩兩病毒序列位點變化所導(dǎo)致特性變化的最大的三個值的平均值,之所以這樣計算一定程度反映位點變化與抗原變化的一種關(guān)聯(lián),取平均值避免與第一組特性的重復(fù);最后一組特性直接用糖基化位點改變個數(shù)來計算,糖基化位點的預(yù)測用NetNGlyc程序?qū)崿F(xiàn),用0.5作為閥值。5、特征的離散化連續(xù)變量的過擬和是機器學(xué)習(xí)中經(jīng)常遇到的問題,為了避免過擬和,這里對每個特性值進行離散化。前面抽提的訓(xùn)練數(shù)據(jù)集,其抗原狀態(tài)已經(jīng)被離散化如果訓(xùn)練數(shù)據(jù)集中包含N對病毒,對于任意一對病毒i(i=1,...,N),其抗原關(guān)系用yi表示,如果抗原相似Yi=O,反之yi=1。對于每一個特性j,其量化、的離散化在這里就是找到一個合適的閥值,使得其對抗原關(guān)系的區(qū)分最好。如果用N1表示抗原發(fā)生改變的病毒對數(shù),用Ntl表示抗原未發(fā)生改變的病毒對數(shù),則NfN1=N。對于任意一個特性j,給定閥值c,定義對于特性j最好的閥值通過下面公式得到其中理論上,上面的操作是找出N個事例的2X2列聯(lián)表的最顯著卡方檢驗結(jié)果。按照上面方法計算得到的閥值,每個特性將被離散化成0-1,分別表示特性改變沒有造成抗原改變以及造成抗原改變,用X表示。6、抗原預(yù)測貝葉斯模型如圖2所示,NaiiveBayesModel(貝葉斯模型)在統(tǒng)計學(xué)習(xí)中廣泛應(yīng)用,其基本假設(shè)是每個特性之間是獨立的。如果用Y表示抗原狀態(tài)(Y=0表示抗原相似,Y=1表示抗原變異,而用X1,...,XmOiI=12)表示每一個特性狀態(tài),應(yīng)用Bayes定理m定義抗原改變的概率比上抗原不改變的概率為優(yōu)勝率(oddsratio),它可以通過下面公式計算進一步假設(shè)Y以及給定Y的每一個Xj滿足Bernoullimodels,比如XjIpoj,Y=0Bernoulli(p0J),XjIpij,Y=1Bernoulli(Plj),j=1,...,m,YIpyBernoulli(pu).如果認為~,以及Pu的先驗概率為均勻分布,定義訓(xùn)練數(shù)據(jù)集的抗原狀態(tài)矢量為y=(Y1,..·,yN)以及離散化后的特性值矩陣χ=(Xij),i=1,...,N;j=1,...m,給定訓(xùn)練數(shù)據(jù)集,Py,P0j以及Plj的后驗概率可以很容易計算出來對于一個給定新的特性的觀測量Xmw=(Xljnew,...,Xm,n),可以得到而對于給定新的特性的觀測量,其預(yù)測的優(yōu)勝率(oddsratio)如下計算=如果優(yōu)勝率大于1,認為抗原發(fā)生了改變,反之抗原沒有發(fā)生改變。7、模型驗證為了得到上述的抗原關(guān)系預(yù)測模型對訓(xùn)練數(shù)據(jù)集本身的預(yù)測能力,對訓(xùn)練數(shù)據(jù)集作10-fold交叉驗證。把訓(xùn)練數(shù)據(jù)集隨機分成十份,然后每次留出其中的一份作新的測試數(shù)據(jù)集,而其余的九份為新的訓(xùn)練數(shù)據(jù)集,這樣重復(fù)十次使得每一份都被作為測試數(shù)據(jù)集被預(yù)測一遍,得到預(yù)測準確率。同時,為了檢驗上述的抗原關(guān)系預(yù)測模型是否反映抗原變化的本質(zhì)規(guī)律,進行前瞻性測試。從Smith文中的數(shù)據(jù)出發(fā),按照年份信息把數(shù)據(jù)集分成不同時間段的數(shù)據(jù)集,分別用時間靠前的數(shù)據(jù)作訓(xùn)練數(shù)據(jù)集,而用時間靠后的數(shù)據(jù)作測試數(shù)據(jù)集。應(yīng)該注意,基于每一次用到的新的訓(xùn)練數(shù)據(jù)集,都要重新進行特性的離散化,重新學(xué)習(xí)預(yù)測模型。人Η3Ν2流感病毒的進化過程是一個新抗原替換舊抗原不斷反復(fù)的過程,本發(fā)明能夠預(yù)測兩兩病毒的抗原關(guān)系,因此可以建立所有病毒之間的抗原關(guān)系網(wǎng)絡(luò)。同時,人Η3Ν2流感病毒的進化表現(xiàn)為從抗原相似的病毒中通過不斷突變產(chǎn)生抗原變異株,基于此理解把每個病毒作為節(jié)點,而把抗原相似(優(yōu)勝率oddsratio<=1)的病毒之間給一個連線,這樣就構(gòu)成一個抗原相關(guān)性網(wǎng)絡(luò)。因為這個抗原相關(guān)性網(wǎng)絡(luò)展示了人H3N2流感病毒通過不斷抗原積累變化的進化過程,可以用這個網(wǎng)絡(luò)來形象的反映抗原進化。用比較通用的Cytoscape來顯示所有網(wǎng)絡(luò),并用yFilesOrganicLayout來組織網(wǎng)絡(luò),這種顯示方式能最大程度把網(wǎng)絡(luò)的模塊化給展示出來,反映出人H3N2流感病毒成簇進化的特征。9、網(wǎng)絡(luò)聚類為了抽提出抗原關(guān)系網(wǎng)絡(luò)中的局部連接密度比較大的區(qū)域,也即認為的抗原相似簇,需要對得到的抗原關(guān)系網(wǎng)絡(luò)進行聚類。網(wǎng)絡(luò)聚類有很多種方法,但基于以下的考慮,選取MCL方法MCL方法對每個病毒都進行分類,這符合任何病毒都可以劃分抗原狀態(tài)符合,雖然有一些病毒的抗原狀態(tài)可能跟其他抗原狀態(tài)有所區(qū)別,但這些抗原狀態(tài)不是憑空出現(xiàn),而是由其他一些主要抗原進化而來,從這個角度講應(yīng)該對每個病毒都給出抗原狀態(tài),這便于分析抗原進化過程。MCL還能夠利用邊的權(quán)重,也就是可以利用病毒與病毒之間的抗原改變的優(yōu)勝率作為權(quán)重來對抗原進行分類??乖倪M化是一種跟分子進化相比“更不連續(xù)”的過程,因此利用好邊的權(quán)重將對于有效劃分抗原類提供幫助。這樣,加上權(quán)重,對上面得到的抗原相似性網(wǎng)絡(luò)進行網(wǎng)絡(luò)聚類,得到不同的網(wǎng)絡(luò)模塊。這些網(wǎng)絡(luò)模塊表現(xiàn)為抗原更相似,就把它們定義為不同抗原類。在分析人H3N2流感病毒整體上抗原進化規(guī)律以及傳播規(guī)律時,我們采用優(yōu)勝率的負對數(shù)作為權(quán)重來進行網(wǎng)絡(luò)聚類得到抗原類;而在疫苗候選株篩選時,因為需要跟蹤抗原的細致動態(tài)變化,我們用優(yōu)勝率的倒數(shù)作為權(quán)重。本發(fā)明可以有以下兩方面的應(yīng)用一方面是,揭示流感傳播規(guī)律人H3N2流感病毒的進化是新抗原替換舊抗原的過程,在傳播上表現(xiàn)為新抗原優(yōu)勢株由源頭向其他區(qū)域傳播的過程。能夠用抗原關(guān)系網(wǎng)絡(luò)來描述抗原的進化過程,并能夠通過網(wǎng)絡(luò)聚類得到不同的抗原類,這樣就可以通過分析不同抗原類傳播過程來得到傳播規(guī)律。人H3N2流感病毒存在流行季的概念,S卩如果按照時間順序,以月為單位,把每個時間點的病毒數(shù)列出來,可以看到在流行季病毒數(shù)比較多,而非流行季時間段病毒數(shù)相對來說就非常少。因此,考慮到不同流行季所監(jiān)測病毒數(shù)以及測序病毒數(shù)的不均勻性,我們采用任意時間點的每個抗原類所包含的病毒數(shù)與其前后一個流行季時間段總病毒數(shù)的比例來描述病毒爆發(fā)以及抗原變化情況。用含有月份信息的數(shù)據(jù),通過上面的處理,再比較不同地區(qū)新抗原出現(xiàn)的先后就可以確定其傳播規(guī)律。中國人H3N2流感病毒進化亞洲包括中國在內(nèi)很可能是全球人H3N2流感病毒優(yōu)勢抗原的起源地,因而加強這個地區(qū)的流感抗原監(jiān)測尤為重要。而很多研究也不約而同的指出,加強對亞洲熱帶、亞熱帶地區(qū)的流感監(jiān)測,對全球流感的防治意義重大。中國大陸作為這個地區(qū)的大國,在流感的進化中扮演舉足輕重的地位。而中國流感中心在中國流感監(jiān)測中起領(lǐng)導(dǎo)地位,利用其健全的監(jiān)測網(wǎng)絡(luò),可以詳細描述人H3N2流感病毒在中國的抗原進化規(guī)律,以便更深入有效的理解H3N2在全球的進化與傳播。中國國家流感中心建立了完善有效的人流感監(jiān)測網(wǎng)絡(luò),即廣泛分布于全國各個省份直轄市的哨點醫(yī)院,每天進行采樣,并依托分布于全國的流感網(wǎng)絡(luò)實驗室,上報國家流感中心,流感中心對流感的流行情況進行綜合的分析與評價?;谶@個監(jiān)測網(wǎng)絡(luò),流感中心每年對人H3N2流感病毒的抗原狀態(tài)進行有效監(jiān)測,并結(jié)合病毒的序列分子進化分析,及時更新和推薦參考株,緊密與WHO溝通推薦疫苗候選株。流感中心的監(jiān)測網(wǎng)絡(luò)及其收集的數(shù)據(jù)對流感區(qū)域預(yù)防和防治起到十分重要的作用。為了從整體上有效描述人H3N2流感病毒在中國的進化規(guī)律,把WHO歷年推薦的疫苗株加到中國大陸的序列庫中,通過本發(fā)明發(fā)展的抗原關(guān)系預(yù)測模型對兩兩病毒抗原狀態(tài)進行預(yù)測,并以此建立相應(yīng)的抗原關(guān)系網(wǎng)絡(luò),進而對這個網(wǎng)絡(luò)進行網(wǎng)絡(luò)聚類,得到不同的抗原類。從進化樹上看,中國的人H3N2流感病毒也滿足主干式的進化模式,反映在抗原關(guān)系網(wǎng)絡(luò)上,表現(xiàn)為抗原類的不斷替換。分析中國流感的進化過程可以看到,中國國家流感中心推薦的參考株以及WHO的疫苗株很好的代表人H3N2流感病毒在中國的抗原進化過程,能夠很好的覆蓋抗原整個進化過程。但是,在抗原類WI05(以A/Wisconsin/67/2005疫苗株為代表株)與BR07(以A/Brisbane/10/2007疫苗株為代表株)之間,中國人H3N2流感病毒還存在一個獨立的抗原類,而中國流感中心也推薦了相應(yīng)的參考株用來表征這個抗原類,根據(jù)其參考株A/Jiangxidonghu/312/2006,把這個抗原類命名為JX06。JX06在中國只持續(xù)了很短的時間(06-07),并很快被BR07抗原類取代。在中國,JX06卻在其流行期間占據(jù)H3N2的主導(dǎo)地位,并在抗原相關(guān)性網(wǎng)絡(luò)中形成一個獨立一簇。后續(xù)的分析表明,JX06在世界其他地方并沒有流行,說明JX06在全球范圍內(nèi)并沒有成為優(yōu)勢株。人H3N2流感病毒進化樹的主干代表優(yōu)勢株的進化過程,如果把抗原流行株的抗原狀態(tài)描述到進化樹的主干上,JX06出現(xiàn)在一個單獨的分支上,這可能說明JX06只是一個抗原變異體,不具備很高的適應(yīng)性,因而沒有在全球流行。在人H3N2流感病毒的進化歷史上,還存在一個類似的抗原類BE89(以A/Beijing/353/1989疫苗株為代表株),在進化樹上處于一個獨立的分支,而在抗原關(guān)系圖上也表現(xiàn)為游離于其他抗原類之外,但跟JX06不同的是BE89在全球范圍內(nèi)流行過,說明區(qū)域變異株的不同命運如果適應(yīng)性夠好,則會像BE89—樣全球流行;而如果適應(yīng)性不是太好,則只能像JX06—樣在局部區(qū)域短暫流行,并很快被其他優(yōu)勢抗原替代。JX06的例子同時也說明,人流感抗原進化的復(fù)雜性,不同地區(qū)可能存在不同,因此對于不同地區(qū),監(jiān)測了解其抗原狀態(tài)變化非常重要。中國人H3N2流感病毒傳播規(guī)律及其與其他亞洲國家的關(guān)系上面提到了解人H3N2流感病毒區(qū)域進化規(guī)律對其防治的重要性,那人H3N2流感病毒在中國內(nèi)部的傳播規(guī)律如何?有什么特點?中國幅員遼闊,地大物博,地形多變,人口眾多,橫跨南北的疆域使得其幾乎包含所有的氣候類型。以秦嶺淮河一線,把中國劃分成南北方,而南北方在流感的流行規(guī)律上卻也截然不同北方屬于典型的北半球氣候,只有冬季一個流感流行季,在夏天幾乎分離不到病毒;而南方則一年有多個流行季,全年流行。很多文章對不同地區(qū)的傳播規(guī)律有過研究,JohnPagetetal通過監(jiān)測臨床流感病例的峰值在不同地區(qū)的差異來看流感在歐洲的傳播規(guī)律,而WladimirJ.Alonsoetal利用類似的辦法來研究流感在巴西的傳播,但這些方法都依賴于詳細的流行病學(xué)監(jiān)測。而人H3N2流感病毒的進化就是優(yōu)勢抗原不斷替代舊抗原的過程,換句話說就是優(yōu)勢抗原不斷擴張的過程。既然本發(fā)明的方法從給定病毒序列的基礎(chǔ)上,就能夠有效描述出不同抗原類的進化過程,那本發(fā)明就可以直接看出優(yōu)勢抗原的出現(xiàn)在不同區(qū)域間有什么特征,從而研究H3N2的傳播規(guī)律。把序列數(shù)據(jù)相對較多的2002到2008年這段時間內(nèi)中國大陸南北方的抗原類進化過程按照月為時間單位描繪出來,可以看到,北方只有一個冬季流行季,而南方在一年則表現(xiàn)出多個流行季很多時候是春季一個流行季夏季一個流行季。而不同抗原類在所分析的時間段里都表現(xiàn)出由南向北的傳播規(guī)律,而且一般是優(yōu)勢抗原株在夏季流行季流行,并在隨后的冬季流行季傳到北方并引起流感流行。中國南方屬于熱帶、亞熱帶氣候,有很多研究者都指出熱帶、亞熱帶地區(qū)在流感進化中的特殊地位因為流感在這些地區(qū)全年流行,因而更容易產(chǎn)生優(yōu)勢抗原株。從中國南北方傳播的分析中也可以看到,中國南方在中國地區(qū)人H3N2流感病毒進化中有著重要地位優(yōu)勢抗原類都是起源于南方,并在南方先流行,并在隨后傳到北方。誠然Smith把整個東亞、東南亞地區(qū)作為優(yōu)勢抗原的源頭,但至少從中國分析的結(jié)果可以看出這個地區(qū)還是存在差異。承接對中國傳播規(guī)律的分析以及亞洲不同地區(qū)之間關(guān)系的思考,用同樣的方法來研究亞洲不同地區(qū)間的傳播規(guī)律。分析可以看到,西亞、亞洲北部(蒙古)以及東亞的韓國、日本有著跟中國北方一致的只在冬季流行季流行的特征,而包括中國香港、澳門以及臺灣在內(nèi)的地區(qū)則跟中國南方的流行特點一致全年流行,一年有多個流感流行季。另外東南亞、南亞地區(qū)同樣有著跟中國南方一致的流感流行特征。這樣可以根據(jù)流感的這種流行特征把亞洲地區(qū)劃分成兩個地區(qū)一個是包括中國北方在內(nèi)的溫帶地區(qū),這個地區(qū)還包括西亞、亞洲北部(蒙古)以及東亞的韓國、日本;另外一個地區(qū)是熱帶、亞熱帶地區(qū),包括中國南部、中國香港、中國澳門、中國臺灣、南亞以及東南亞。而分析抗原類的傳播過程可以看至|J,人H3N2流感病毒在這段時間內(nèi)都是由亞洲熱帶、亞熱帶地區(qū)傳播到亞洲溫帶地區(qū),也就是新的優(yōu)勢抗原類一般在亞洲熱帶、亞熱帶地區(qū)先流行,并在隨后的冬季流行季到達亞洲溫帶地區(qū)。而優(yōu)勢抗原株在熱帶、亞熱帶地區(qū)的傳播很復(fù)雜,不是由單一的國家或地區(qū)向其他地區(qū)傳播,而是一個復(fù)雜的整體,在這個整體內(nèi),優(yōu)勢抗原不斷出現(xiàn),并傳播到亞洲其他地區(qū)。另一方面是,篩選疫苗候選株本發(fā)明的方法能有效描述抗原的進化過程,因此本發(fā)明可以通過監(jiān)測抗原狀態(tài)的變化來及時地篩選疫苗候選株。這里的抗原狀態(tài)用某一個時間點的對應(yīng)抗原類所包含的病毒數(shù)除以這個時間點所有病毒數(shù)的比例來表示,這樣能夠反映前后抗原比例的變化。中國作為流感新抗原株起源地之一,抗原很多時候都超前,使得現(xiàn)有的疫苗不能很好的保護中國的人群。這里以中國2002年到2008年數(shù)據(jù)的為例,用本發(fā)明的方法來篩選疫苗候選株,看篩選的疫苗候選株的保護效果??紤]到疫苗株制備需要至少6個月的時間,以及中國處于北半球,以對應(yīng)冬季流行季(10月到來年三月)的抗原狀態(tài)變化來推薦下一個流行季的疫苗株??紤]到這種流行季相關(guān)的推薦方式,以及對應(yīng)時間段的數(shù)據(jù)問題,以三個月為單位即季度為單位來分析。這樣,以對應(yīng)冬季流行季前兩個季度的抗原狀態(tài)變化來推薦來年流行季疫苗株,原則是1)有新的抗原類出現(xiàn),并且新的抗原類所占比例不斷增加,2)如果有多個新抗原類同時滿足上面條件,則選擇變化更顯著的抗原類作為疫苗候選株。基于中國監(jiān)測數(shù)據(jù)的疫苗候選株篩選加深對人H3N2流感病毒進化規(guī)律的理解,特別是對其抗原進化規(guī)律的把握,了解其傳播規(guī)律,最終的目的是為了能及時有效的對流感進行防治。現(xiàn)在最有效的防治方式還是疫苗,通過及時準確地推薦疫苗株,就能有效減少流感對于人類造成的傷害。WHO通過全球流感監(jiān)測網(wǎng)絡(luò),對全球流感進行抗原監(jiān)測,再結(jié)合流行病學(xué)以及分子進化分析,適時推薦疫苗株。WHO每年分兩次分別對南北半球不同的流行季推薦疫苗株,指導(dǎo)疫苗的生產(chǎn)。但因為抗原監(jiān)測方法的滯后性及靈敏度不夠,加之人H3N2流感病毒區(qū)域傳播所造成的抗原狀態(tài)不同步問題,使得很多時間、很多地區(qū)存在疫苗株與流行株不匹配的問題。因為優(yōu)勢抗原更早的在起源地流行,這個問題在亞洲尤為突出。因此,對于起源地抗原狀態(tài)的監(jiān)測,以及基于此的疫苗株推薦就意義重大,這樣可以一方面有效保護起源地地區(qū)的人群,另外對其他地區(qū)疫苗推薦以及流感防治具有十分重要的指導(dǎo)意義。這里以中國數(shù)據(jù)為例來篩選疫苗候選株。流感抗原進化就是優(yōu)勢抗原不斷替代舊抗原的過程,優(yōu)勢抗原類一旦出現(xiàn)并在人群中流行開,那它將迅速成為流行株,替代原有的舊抗原類?;谶@些認識,結(jié)合中國處于北半球的事實,從序列出發(fā)對疫苗候選株進行篩選在北半球冬季流行季結(jié)束之前,如果有新的抗原類出現(xiàn),并且其所占比例不斷增加,那就使用這個新抗原類合適的病毒株為隨后的流行季的疫苗候選株。應(yīng)用到中國的數(shù)據(jù)上,分別推薦02-03到07-08流行季代表抗原類FU02、FU02、CA04、WI05、WI05以及BR07的疫苗株,而在中國地區(qū),這段時間流行的優(yōu)勢抗原類分別是FU02、FU02、CA04、WI05、JX06以及BR07,其中03-04流行季流行的抗原類跟FU02抗原上非常相似,可以認為是FU02。在這段時間,只有06-07流行季疫苗株跟流行株不匹配,而綜觀WHO推薦的疫苗株,則沒有一個流行季匹配,而其對北半球其它地區(qū)也只有兩個流行季能有效保護。這一方面說明現(xiàn)有方式推薦的疫苗株中國以及其他地區(qū)的保護不好,同時也說明通過本發(fā)明篩選疫苗候選株方法的的合理性與有效性。以中國的數(shù)據(jù)出發(fā)來篩選疫苗候選株,篩選的疫苗候選株能有效的保護中國地區(qū)的人群。但通過研究人H3N2流感病毒的傳播規(guī)律知道,亞洲熱帶、亞熱帶地區(qū)作為優(yōu)勢抗原的起源地,優(yōu)勢抗原在這個地區(qū)流行比其他地區(qū)要更早流行,例如比澳洲、北美以及歐洲要早半個流行季甚至更長時間。這就使得針對優(yōu)勢抗原起源地的抗原監(jiān)測以及疫苗候選株的篩選具有特殊的意義,因為基于這個地區(qū)篩選的疫苗候選株,不僅能有效保護這個地區(qū)的人群,對世界其他地區(qū)流感防治同樣有指導(dǎo)意義。通過本發(fā)明的分析可以看到,如果優(yōu)勢抗原在亞洲的冬季流行季起源,那么在隨后的夏季流行季傳到澳洲(澳洲的冬季流行季),而下一個冬季流行季到達北美以及歐洲;而如果優(yōu)勢抗原是在亞洲夏季流行季起源,那么在同一個或再下一個夏季流行季(澳洲冬季流行)就有可能傳到澳洲,并在接下來的冬季流行季到達北美以及歐洲使得可以有至少半個流行季(3-6個月)的預(yù)警期,可以根據(jù)起源地分別推薦不同的疫苗株,能對其它地區(qū)人H3N2流感病毒進行有效防治。以上所述,僅為本發(fā)明較佳的具體實施方式,但本發(fā)明的保護范圍并不局限于此,任何熟悉本
技術(shù)領(lǐng)域
的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護范圍之內(nèi)。權(quán)利要求一種通過模型預(yù)測流感抗原的方法,其特征在于,包括通過以下表1和式(1)構(gòu)建的模型預(yù)測兩兩病毒之間抗原相似還是抗原變異抽提影響流感抗原的12個特征五個抗原決定簇氨基酸的突變個數(shù)、HA蛋白氨基酸的五個理化特性、影響受體結(jié)合因素、糖基化位點改變的個數(shù),所述HA蛋白氨基酸的五個理化特性包括疏水性、體積變化、帶電性、極性、可積表面積;對3681對已知抗原相似的病毒對和1720對抗原變異的病毒對的上述12個特征進行統(tǒng)計,得到表1表1中的數(shù)據(jù)分別表示抗原相似病毒對的特征改變大和小的數(shù)量及抗原變異病毒對的特征改變大和小的數(shù)量;<mrow><msub><mi>P</mi><mi>oddsratio</mi></msub><mo>=</mo><mfrac><mn>172</mn><mn>3682</mn></mfrac><msup><mrow><mo>(</mo><mfrac><mn>3683</mn><mn>1722</mn></mfrac><mo>)</mo></mrow><mn>12</mn></msup><mo>&times;</mo><munderover><mi>&Pi;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mn>12</mn></munderover><mfrac><mrow><mn>1</mn><mo>+</mo><munder><mi>&Sigma;</mi><mrow><msub><mi>y</mi><mi>i</mi></msub><mo>=</mo><mn>1</mn></mrow></munder><msub><mover><mi>x</mi><mo>~</mo></mover><mi>ij</mi></msub></mrow><mrow><mn>1</mn><mo>+</mo><munder><mi>&Sigma;</mi><mrow><msub><mi>y</mi><mi>i</mi></msub><mo>=</mo><mn>0</mn></mrow></munder><msub><mover><mi>x</mi><mo>~</mo></mover><mi>ij</mi></msub></mrow></mfrac><mo>,</mo><msub><mover><mi>x</mi><mo>~</mo></mover><mi>ij</mi></msub><mo>=</mo><mfencedopen='{'close=''><mtable><mtr><mtd><msub><mi>x</mi><mi>ij</mi></msub><mo>,</mo><mi>if</mi><msub><mi>X</mi><mrow><mi>j</mi><mo>,</mo><mi>new</mi></mrow></msub><mo>=</mo><mn>1</mn></mtd></mtr><mtr><mtd><mn>1</mn><mo>-</mo><msub><mi>x</mi><mi>ij</mi></msub><mo>,</mo><mi>if</mi><msub><mi>X</mi><mrow><mi>j</mi><mo>,</mo><mi>new</mi></mrow></msub><mo>=</mo><mn>0</mn></mtd></mtr></mtable></mfenced><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow><mo>,</mo></mrow>式中Poddsratio表示優(yōu)勝率,Poddsratio<1時被預(yù)測的病毒對抗原相似,Poddsratio>1時被預(yù)測的病毒對抗原變異;Xj,new表示待預(yù)測的病毒對的第j個特征改變情況,Xj,new以及Poddsratio通過以下方法計算首先,分別對所述影響流感抗原的12個特征進行量化,并分別取以下閾值0、2、0、1、0、1.82、54.667、2.493、34.867、0.098、113.607、1;然后,對被預(yù)測病毒對的12個特征分別進行比較計算,當(dāng)二者的特征差異小于其對應(yīng)的閾值時,Xj,new=0,對應(yīng)表1第j個特征在抗原相似的病毒對中特征改變小的數(shù)量,對應(yīng)表1第j個特征在抗原變異的病毒對中特征改變小的數(shù)量;當(dāng)二者的差異大于或等于其對應(yīng)的閾值時,Xj,new=1,對應(yīng)表1第j個特征在抗原相似的病毒對中特征改變大的數(shù)量,對應(yīng)表1第j個特征在抗原變異的病毒對中特征改變大的值。FSA00000083786500021.tif,FSA00000083786500022.tif,FSA00000083786500023.tif,FSA00000083786500024.tif2.根據(jù)權(quán)利要求1所述的通過模型預(yù)測流感抗原的方法,其特征在于,所述的3681對已知的抗原相似的病毒對和1720對抗原變異的病毒對通過以下方法得到已知Smith等人把1968年到2003年間的253株人H3N2流感病毒劃分成11個抗原類;對于這253株病毒,如果兩個病毒處于同一抗原類,就認為它們是抗原相似株;如果這兩個病毒處于不同的抗原類,就認為他們是抗原變異株,得到31878對兩兩病毒間的抗原關(guān)系;選取兩兩病毒HAl蛋白序列差異數(shù)介于1-9的病毒對。3.根據(jù)權(quán)利要求2所述的通過模型預(yù)測流感抗原的方法,其特征在于,所述的閾值通過對所述的3681對已知的抗原相似的病毒對和1720對抗原變異的病毒對進行統(tǒng)計得到。4.一種權(quán)利要求1、2或3所述的通過模型預(yù)測流感抗原的方法的應(yīng)用,其特征在于,用于構(gòu)建抗原關(guān)系網(wǎng)絡(luò)通過預(yù)測病毒對之間抗原相似還是抗原變異的關(guān)系,建立所有病毒之間的抗原關(guān)系網(wǎng)絡(luò),把每個病毒作為節(jié)點,把抗原相似的病毒之間給一個連線,構(gòu)成所述抗原關(guān)系網(wǎng)絡(luò)。5.根據(jù)權(quán)利要求4所述的通過模型預(yù)測流感抗原的方法的應(yīng)用,其特征在于,包括對所述抗原關(guān)系網(wǎng)絡(luò)進行聚類。所述抗原關(guān)系網(wǎng)絡(luò)的聚類包括抽提出所述抗原關(guān)系網(wǎng)絡(luò)中的局部連接密度比較大的區(qū)域,作為抗原相似簇。6.根據(jù)權(quán)利要求5所述的通過模型預(yù)測流感抗原的方法的應(yīng)用,其特征在于,所述抗原關(guān)系網(wǎng)絡(luò)的聚類通過MCL方法。7.根據(jù)權(quán)利要求6所述的通過模型預(yù)測流感抗原的方法的應(yīng)用,其特征在于,用于揭示流感的傳播規(guī)律。8.根據(jù)權(quán)利要求6所述的通過模型預(yù)測流感抗原的方法的應(yīng)用,其特征在于,用于按以下原則進行篩選疫苗候選株當(dāng)有新的抗原相似簇出現(xiàn),并且新的抗原相似簇所占比例不斷增加,則選擇該抗原相似簇作為疫苗候選株;如果有多個新抗原相似簇同時滿足上面條件,則選擇變化更顯著的抗原相似簇作為疫苗候選株。全文摘要本發(fā)明公開了一種通過模型預(yù)測流感抗原的方法及應(yīng)用,通過抽提影響流感抗原的12個特征五個抗原決定簇氨基酸的突變個數(shù)、HA蛋白氨基酸的五個理化特性、影響受體結(jié)合因素、糖基化位點改變的個數(shù),氨基酸五個理化特性包括疏水性、體積變化、帶電性、極性、可積表面積,并對3681對已知的抗原相似的病毒對和1720對抗原變異的病毒對的上述12個特征進行統(tǒng)計,建立一個抗原關(guān)系的預(yù)測模型,單純從序列出發(fā),就能給出病毒之間的抗原關(guān)系,簡單、方便、靈敏度高。通過網(wǎng)絡(luò)的方式能夠形象的展示抗原進化的過程,用于揭示流感傳播規(guī)律和篩選疫苗候選株等。文檔編號G06F19/00GK101847179SQ20101014753公開日2010年9月29日申請日期2010年4月13日優(yōu)先權(quán)日2010年4月13日發(fā)明者吳愛平,張燁,彭友松,杜向軍,王大燕,舒躍龍,董麗波,蔣太交,藍雨申請人:中國疾病預(yù)防控制中心病毒病預(yù)防控制所;中國科學(xué)院生物物理研究所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1