本發(fā)明屬于醫(yī)療及多模態(tài)大模型,特別涉及一種基于多模態(tài)大模型的疾病預(yù)測與輔助診斷系統(tǒng)構(gòu)建方法及系統(tǒng)。
背景技術(shù):
1、近年來,大規(guī)模語言模型取得了顯著進(jìn)展。通過擴大數(shù)據(jù)規(guī)模和模型規(guī)模,這些大規(guī)模語言模型展示出了非凡的新興能力,通常包括指令跟蹤、上下文學(xué)習(xí)和思維鏈。盡管大規(guī)模語言模型在大多數(shù)自然語言處理任務(wù)甚至復(fù)雜的實際應(yīng)用上都表現(xiàn)出了令人驚訝的推理性能,但它們本質(zhì)上對視覺是不敏感的,因為它們只能理解離散文本。同時,大型視覺模型可以看得清楚,但推理能力通常較差。鑒于這種互補性,大規(guī)模語言模型和大規(guī)模視覺模型相互競爭,從而產(chǎn)生了多模態(tài)大規(guī)模語言模型的新領(lǐng)域。正式來說,它是指基于大規(guī)模語言模型,具有接收、推理和輸出多模態(tài)信息的能力。在多模態(tài)大規(guī)模語言模型之前,已經(jīng)有很多致力于多模態(tài)的研究,可分為判別式和生成式范式。對比語言-圖像預(yù)訓(xùn)練作為前者的代表,將視覺和文本信息投射到統(tǒng)一的表示空間中,為下游的多模態(tài)任務(wù)搭建了橋梁。相比之下,統(tǒng)一的多模態(tài)預(yù)訓(xùn)練模型框架ofa是后者的代表,它以序列到序列的方式統(tǒng)一多模態(tài)任務(wù)。根據(jù)序列操作,多模態(tài)大模型可歸類為后者,但與傳統(tǒng)模型相比,它表現(xiàn)出兩個截然不同的特征:(1)多模態(tài)大模型基于具有十億級參數(shù)的大規(guī)模語言模型,這是以前的模型所不具備的。(2)多模態(tài)大模型使用新的訓(xùn)練范式釋放其全部潛力,例如使用多模態(tài)指令調(diào)整鼓勵模型遵循新指令。憑借這兩大特性,多模態(tài)大模型展現(xiàn)出了許多新功能,例如根據(jù)圖像編寫網(wǎng)站代碼、理解深層含義以及數(shù)學(xué)推理。
2、自gpt-4發(fā)布以來,由于多模態(tài)大模型所展示的令人驚嘆的多模態(tài)示例,人們對其展開了研究熱潮。學(xué)術(shù)界和工業(yè)界的努力推動了其快速發(fā)展。對多模態(tài)大模型的初步研究主要集中在基于文本提示和圖像/視頻/音頻的文本內(nèi)容生成。后續(xù)研究擴展了其功能或使用場景,包括:(1)更好的粒度支持。開發(fā)了對用戶提示的更精細(xì)控制,以支持通過框指定區(qū)域或通過單擊指定某個對象。?(2)?增強對輸入和輸出模態(tài)的支持,如圖像、視頻、音頻和點云。(3)改進(jìn)語言支持。人們努力將多模態(tài)大模型的成功擴展到訓(xùn)練語料庫相對有限的其他語言(如中文)。(4)擴展到更多領(lǐng)域和使用場景。一些研究將多模態(tài)大模型的強大功能轉(zhuǎn)移到其他領(lǐng)域,如醫(yī)學(xué)圖像理解和文檔解析。此外,還開發(fā)了多模態(tài)代理來協(xié)助現(xiàn)實世界的交互,例如具身代理和gui代理。
3、多模態(tài)大模型具有改善醫(yī)療保健的潛力,因為它們能夠解析復(fù)雜概念并生成適當(dāng)?shù)捻憫?yīng)。多模態(tài)大模型已證明能夠熟練完成各種臨床活動的任務(wù),例如醫(yī)療咨詢響應(yīng)、對話系統(tǒng)以及臨床報告的總結(jié)。多模態(tài)大模型的一個潛在高價值領(lǐng)域是能夠根據(jù)當(dāng)前醫(yī)生報告或醫(yī)療指南提供臨床決策,從而促進(jìn)循證實踐,這些指南是專家意見和臨床試驗的當(dāng)前證據(jù)的提煉,用于通過最佳實踐推動患者結(jié)果的改善。然而,在應(yīng)用時主要擔(dān)心的是不準(zhǔn)確的反應(yīng)(例如“幻覺”)可能會導(dǎo)致患者受到傷害。在臨床應(yīng)用中,利用多模態(tài)大模型的擬議框架基于遵守誠實、樂于助人和無害的三項原則。為了使多模態(tài)大模型符合上述原則,必須采取特定策略將其響應(yīng)與特定領(lǐng)域知識集綁定在一起,例如檢索增強生成或監(jiān)督微調(diào),然后是帶人工反饋的強化學(xué)習(xí)。檢索增強生成和監(jiān)督微調(diào)都根據(jù)特定領(lǐng)域的信息數(shù)據(jù)集指導(dǎo)輸出生成,對于臨床應(yīng)用,這些信息數(shù)據(jù)集可以用醫(yī)療指南來表示。然而,臨床指南的格式存在很大差異(例如,一般結(jié)構(gòu)、建議的位置、表格格式和流程圖),這些差異可能會影響對相關(guān)信息的正確解釋或檢索。雖然多模態(tài)大模型融入醫(yī)療領(lǐng)域前景光明,但在管理廣泛存在的癌癥等疾病的背景下,確保準(zhǔn)確解釋臨床指南的挑戰(zhàn)變得尤為重要。胃癌的預(yù)測的診斷大多靠專業(yè)醫(yī)師的經(jīng)驗判斷,但這種經(jīng)驗不能被量化,且有效性不能保證。需要可擴展且可靠的解決方案來從提供的診斷報告和醫(yī)療指南中提取關(guān)鍵信息,進(jìn)行手術(shù)風(fēng)險預(yù)測和相關(guān)醫(yī)療診斷。
技術(shù)實現(xiàn)思路
1、針對現(xiàn)有技術(shù)不足,本發(fā)明提出了一種基于多模態(tài)大模型的疾病預(yù)測與輔助診斷系統(tǒng),在統(tǒng)一文件格式基礎(chǔ)上,將表格圖像轉(zhuǎn)換成文字表述,并整合到報告單中,確保輸入數(shù)據(jù)的規(guī)范性和有效性。構(gòu)建疾病相關(guān)的外部知識庫,提升模型的檢索能力和結(jié)果生成的準(zhǔn)確性。設(shè)計精準(zhǔn)的提示語句,增強模型推理的可靠性,減少誤導(dǎo)和不準(zhǔn)確結(jié)果的產(chǎn)生。采用小樣本學(xué)習(xí)和遷移學(xué)習(xí)技術(shù),在有限數(shù)據(jù)中提取有價值的知識,提高診斷預(yù)測能力。將整合檢索增強生成和提示工程的多模態(tài)大模型框架集成到可視化系統(tǒng)中,使得用戶可以上傳患者報告進(jìn)行手術(shù)風(fēng)險預(yù)測、診斷結(jié)果和治療建議的生成。
2、本發(fā)明的具體步驟如下:
3、一種基于多模態(tài)大模型的疾病預(yù)測與輔助診斷系統(tǒng)構(gòu)建方法,所述方法如下:
4、步驟1、報告單格式轉(zhuǎn)換與數(shù)據(jù)清理,表格圖像轉(zhuǎn)結(jié)構(gòu)化文本:將報告單文件轉(zhuǎn)換為標(biāo)準(zhǔn)文本格式,并清理非信息數(shù)據(jù);將圖像形式呈現(xiàn)的表格內(nèi)容轉(zhuǎn)化為結(jié)構(gòu)化文本并整合;對于第i種顯式元數(shù)據(jù),識別出屬于正則定義集合m的行,然后從整份文檔行集中剔除,得到僅含核心醫(yī)學(xué)信息的行集合c,所述的顯式元數(shù)據(jù)包括頁碼、報告編號、圖注和url?;針對文檔中的結(jié)構(gòu)性元素進(jìn)行格式解析,確保文本內(nèi)容清晰、有序,并符合模型輸入要求,所述的結(jié)構(gòu)性元素包括標(biāo)題、段落和表格;
5、;
6、表示為一行文本,表示整份文檔的全部行集合(包括正文信息與各種顯式元數(shù)據(jù)行:頁碼、報告編號、圖注、url?等),表示集合m中與核心醫(yī)學(xué)信息行不匹配的元數(shù)據(jù)行。也就是說,只把不匹配元數(shù)據(jù)正則集合m的行加入c。
7、步驟2、構(gòu)建檢索知識庫以增強檢索能力:采用自然語言處理技術(shù)對知識庫中的文本進(jìn)行語義分析和信息提取,提取出知識庫中的關(guān)鍵信息并進(jìn)行結(jié)構(gòu)化存儲,引入檢索增強生成技術(shù),將知識庫與醫(yī)學(xué)chatglm3模型進(jìn)行有效的結(jié)合,利用向量檢索和語義匹配算法增強信息檢索的能力;通過與預(yù)訓(xùn)練多模態(tài)醫(yī)學(xué)chatglm3模型的整合,確保檢索結(jié)果的相關(guān)性和準(zhǔn)確性。
8、步驟3、精準(zhǔn)提示語設(shè)計與推理優(yōu)化:設(shè)計有效提示機制以提高醫(yī)學(xué)chatglm3模型推理準(zhǔn)確性:基于疾病領(lǐng)域的特定任務(wù)需求,設(shè)計與其緊密相關(guān)的提示語句;提示語句包括:能夠為醫(yī)學(xué)chatglm3模型提供有關(guān)疾病的癥狀、風(fēng)險因素、歷史病例在內(nèi)的信息;
9、步驟4、小樣本學(xué)習(xí)與模型微調(diào):基于預(yù)訓(xùn)練醫(yī)學(xué)chatglm3模型進(jìn)行小樣本學(xué)習(xí),優(yōu)化診斷預(yù)測能力;
10、步驟5、多模態(tài)大模型集成與可視化系統(tǒng):設(shè)計直觀、簡潔的用戶界面,確保醫(yī)務(wù)人員能夠快速訪問和理解系統(tǒng)輸出的診斷建議。
11、作為一種優(yōu)選的實施方案,所述步驟1)中,采用自動化工具將報告單(電子病歷、診斷報告等)從原始格式(pdf、圖像、掃描件等)轉(zhuǎn)換為可編輯的文本格式;轉(zhuǎn)換過程使用光學(xué)字符識別技術(shù)提取圖像中的文本內(nèi)容,確保圖像中嵌入的文字信息可以被機器理解和處理;對于報告單中的非信息性數(shù)據(jù)(頁眉、頁腳、文檔編號、無關(guān)插圖等),通過基于正則的“顯式”元數(shù)據(jù)刪除規(guī)則進(jìn)行數(shù)據(jù)清理;
12、作為一種優(yōu)選的實施方案,所述步驟1)中,通過光學(xué)字符識別技術(shù)提取表格中的圖像數(shù)據(jù),將表格內(nèi)容轉(zhuǎn)化為可編輯文本;對于表格中的數(shù)值、文字和其他重要信息,采用多頭注意力機制對其進(jìn)行解析,識別每一列、每一行的數(shù)據(jù)類別及其相互關(guān)系,確保表格中的數(shù)據(jù)能夠被模型清晰理解;根據(jù)表格內(nèi)容的結(jié)構(gòu),設(shè)計并生成標(biāo)準(zhǔn)化的文本格式,將表格中的各個單元格數(shù)據(jù)按行列結(jié)構(gòu)轉(zhuǎn)換成結(jié)構(gòu)化文本,且該文本保持原有表格的邏輯關(guān)系;將轉(zhuǎn)換后的表格信息嵌入到標(biāo)準(zhǔn)文本報告中,形成一個完整的醫(yī)學(xué)報告文本,以保證報告內(nèi)容的連貫性和邏輯性。
13、作為一種優(yōu)選的實施方案,所述步驟2)中,通過收集和整合多源醫(yī)學(xué)文獻(xiàn)、臨床指南、病例數(shù)據(jù)庫及其他相關(guān)醫(yī)學(xué)資料,構(gòu)建一個全面的醫(yī)學(xué)知識庫。該知識庫包括常見疾病、治療方法、藥物信息、臨床實踐規(guī)范等內(nèi)容,且涵蓋最新的醫(yī)學(xué)研究成果。
14、作為一種優(yōu)選的實施方案,所述步驟3)中,結(jié)合醫(yī)學(xué)領(lǐng)域的專業(yè)術(shù)語與常見的診療流程,設(shè)計多輪交互式的提示語句,采用基于規(guī)則的提示工程方法,優(yōu)化提示的表達(dá)形式,并根據(jù)模型的表現(xiàn)不斷進(jìn)行迭代調(diào)整;設(shè)計的提示語句能夠引導(dǎo)醫(yī)學(xué)chatglm3模型根據(jù)不同的輸入數(shù)據(jù)生成適當(dāng)?shù)脑\斷建議和風(fēng)險評估結(jié)果,并且輸出結(jié)果完全符合臨床實踐要求。
15、作為一種優(yōu)選的實施方案,所述步驟4)中,收集并整理具有代表性的醫(yī)學(xué)數(shù)據(jù)集,尤其是針對疾病的不同臨床情景,準(zhǔn)備少量的高質(zhì)量標(biāo)注數(shù)據(jù);為了提升小樣本學(xué)習(xí)的效果,采用數(shù)據(jù)增強技術(shù),通過對少量樣本進(jìn)行包括翻譯、擴展、重組在內(nèi)的處理,生成多樣化的訓(xùn)練數(shù)據(jù),擴充樣本數(shù)量;對基于預(yù)訓(xùn)練的多模態(tài)醫(yī)學(xué)chatglm3模型進(jìn)行小樣本學(xué)習(xí),以適應(yīng)疾病診斷任務(wù);采用遷移學(xué)習(xí)和領(lǐng)域微調(diào)技術(shù),將多模態(tài)醫(yī)學(xué)chatglm3模型在一般醫(yī)學(xué)領(lǐng)域的知識遷移到疾病診斷預(yù)測領(lǐng)域,提升模型對疾病數(shù)據(jù)的理解和應(yīng)用能力。
16、更進(jìn)一步,基于少量高質(zhì)量標(biāo)注文本數(shù)據(jù),采用同義詞替換、隨機插入、隨機交換和隨機刪除四類簡單擾動操作,每條原始文本生成k個變體,最終得到增強文本集。利用cyclegan在不同染色風(fēng)格見做無監(jiān)督圖像翻譯,以合成更多樣式的切片樣本,記兩種風(fēng)格域為x(原始)與y(目標(biāo)),生成器為,判別器為。模型訓(xùn)練的全局損失為:
17、;
18、其中,表示從分布y中采樣得到的真實目標(biāo)域樣本,表示從分布x中采樣得到的真實源域樣本。和表示度量g和f兩個生成器之間的差異,控制循環(huán)損失權(quán)重。訓(xùn)練收斂后,利用g與f對原始切片的反復(fù)轉(zhuǎn)換,得到多種風(fēng)格切片,共計增強圖像集。結(jié)合遷移學(xué)習(xí)技術(shù),將預(yù)訓(xùn)練的醫(yī)學(xué)chatglm3大模型,在大規(guī)模未標(biāo)注疾病相關(guān)文獻(xiàn)和電子病歷上做五輪的微調(diào)訓(xùn)練。醫(yī)學(xué)chatglm3共有l(wèi)層transformer,參數(shù)中預(yù)測頭為。采用逐層解凍策略,凍結(jié)前?80%?transformer層,僅微調(diào)頂層+預(yù)測頭。逐層解凍策略如下:
19、;
20、第r層解凍為,初始凍結(jié)比例,每層解凍底層,學(xué)習(xí)率和batch?size分別設(shè)置為1e-5和32,每一輪解凍底層?10%。
21、作為一種優(yōu)選的實施方案,所述步驟5)中,設(shè)計直觀、簡潔的用戶界面,確保醫(yī)務(wù)人員能夠快速訪問和理解系統(tǒng)輸出的診斷建議;界面包括常見的操作界面元素,如菜單、按鈕、選擇框等,以便用戶快速輸入病例數(shù)據(jù)并查看診斷結(jié)果。系統(tǒng)具備高度的交互性,允許醫(yī)務(wù)人員根據(jù)需要提供不同的患者信息,系統(tǒng)則能實時進(jìn)行數(shù)據(jù)處理和風(fēng)險評估。為了增強用戶體驗,采用可視化的圖表、曲線和報告模板,將診斷結(jié)果、風(fēng)險評估和治療建議等信息以易于理解的方式呈現(xiàn)給用戶。此外,系統(tǒng)具備數(shù)據(jù)分析和追蹤功能,支持醫(yī)務(wù)人員查看患者病歷的變化趨勢和歷史診斷記錄。為確保系統(tǒng)的可靠性和安全性,系統(tǒng)集成數(shù)據(jù)加密技術(shù)和權(quán)限管理功能,以保護(hù)患者隱私并確保數(shù)據(jù)的合規(guī)性。
22、一種基于多模態(tài)大模型的疾病預(yù)測與輔助診斷系統(tǒng),所述系統(tǒng)包括:
23、數(shù)據(jù)處理模塊,所述模塊將報告單文件轉(zhuǎn)換為標(biāo)準(zhǔn)文本格式,并清理非信息數(shù)據(jù);將圖像形式呈現(xiàn)的表格內(nèi)容轉(zhuǎn)化為結(jié)構(gòu)化文本并整合;
24、外部知識庫模塊:構(gòu)建檢索知識庫增強檢索能力;
25、檢索模塊:設(shè)計有效提示機制以提高模型推理準(zhǔn)確性;
26、診斷模塊:基于預(yù)訓(xùn)練醫(yī)學(xué)chatglm3模型進(jìn)行小樣本學(xué)習(xí),優(yōu)化診斷預(yù)測能力;
27、輸出和顯示模塊:開發(fā)用戶可視化系統(tǒng),便于臨床醫(yī)務(wù)人員使用。
28、本發(fā)明與現(xiàn)有技術(shù)相比的有益效果:本發(fā)明提出了一種新穎的多模態(tài)大模型框架,有效應(yīng)對數(shù)據(jù)稀缺問題,將診斷報告和臨床指南與檢索增強生成、提示工程和文本重新格式化策略相結(jié)合,以增強文本解釋。該框架在生成準(zhǔn)確的風(fēng)險預(yù)測概率和診療建議方面表現(xiàn)優(yōu)異,其主要結(jié)果是基于手動專家評審定性測量準(zhǔn)確性。本發(fā)明還再此框架基礎(chǔ)上,開發(fā)完成一套術(shù)前風(fēng)險預(yù)測系統(tǒng),用戶在通過上傳診斷報告和歷史病例,即可預(yù)測手術(shù)的風(fēng)險概率,給出合理的診療建議。