本發(fā)明屬于人工智能,具體涉及一種基于大模型和知識(shí)庫融合的圖文混合文檔問答方法及系統(tǒng)。
背景技術(shù):
1、本部分的陳述僅僅是提供了與本發(fā)明相關(guān)的背景技術(shù)信息,不必然構(gòu)成在先技術(shù)。
2、圖文混合文檔問答是一種能夠處理同時(shí)包含文字、圖像、表格和圖表等信息的復(fù)雜文檔內(nèi)容,并根據(jù)用戶所輸入的內(nèi)容提供綜合答案的智能綜合系統(tǒng)。隨著人工智能技術(shù)的快速發(fā)展,大模型作為具備強(qiáng)大語言處理能力的預(yù)訓(xùn)練模型,在圖文混合文檔問答中能夠拓展應(yīng)用場(chǎng)景并提升整體問答的性能。
3、圖文混合文檔問答可用于醫(yī)療健康、教育培訓(xùn)和商業(yè)智能等多個(gè)領(lǐng)域中,通過同時(shí)參考文本信息和圖像信息來獲取全面準(zhǔn)確的答案;例如:在醫(yī)學(xué)診斷中,醫(yī)生需要參考病歷文本和影像圖像;在教育中,學(xué)生需要同時(shí)理解教材文本和示意圖;在商業(yè)分析中,分析師需要結(jié)合報(bào)告文本和統(tǒng)計(jì)圖表;這些場(chǎng)景都需要圖文混合文檔問答能夠同時(shí)理解和整合文本和圖像信息,并提供基于全面知識(shí)的準(zhǔn)確回答。
4、現(xiàn)有的圖文混合文檔問答存在著以下的處理難點(diǎn):
5、(1)當(dāng)圖文混合文檔中的文本描述圖片、圖片佐證文本、表格數(shù)據(jù)等多模態(tài)元素被正文引用時(shí),需真正理解不同的模態(tài)元素之間的語義關(guān)聯(lián)和空間/邏輯關(guān)系后才能實(shí)現(xiàn)圖文混合文檔問答的準(zhǔn)確回復(fù),否則圖文混合文檔問答可能會(huì)出現(xiàn)混亂;
6、(2)當(dāng)圖文混合文檔中含有復(fù)雜的二維空間布局時(shí),需理解元素(二維空間布局)的空間位置關(guān)系以及圖片在圖文混合文檔上下文的含義后才能實(shí)現(xiàn)元素和圖片的準(zhǔn)確定位;
7、(3)當(dāng)圖文混合文檔中含有圖表時(shí),需設(shè)計(jì)有效的架構(gòu)和訓(xùn)練目標(biāo)才能實(shí)現(xiàn)跨模態(tài)信息對(duì)齊(例如:怎樣將正文中的“如圖所示”精準(zhǔn)關(guān)聯(lián)到對(duì)應(yīng)的圖表,并理解圖表中特定數(shù)據(jù)點(diǎn)與文本描述的對(duì)應(yīng)關(guān)系)。
8、目前,多模態(tài)大模型(如gpt-4v,?gemini,?claude?3,?llava,?qwen-vl,?unidoc)在預(yù)訓(xùn)練階段學(xué)習(xí)圖文配對(duì)數(shù)據(jù),具備初步的跨模態(tài)理解能力;可通過多模態(tài)大模型解決圖文混合文檔問答所存在的上述處理難點(diǎn);但是,深度語義融合、復(fù)雜邏輯推理的跨模態(tài)支持仍是研究的難點(diǎn),且多模態(tài)大模型常出現(xiàn)圖文割裂或關(guān)聯(lián)錯(cuò)誤,對(duì)于具有邏輯關(guān)聯(lián)關(guān)系的圖文混合文檔問答效果有待提升。
技術(shù)實(shí)現(xiàn)思路
1、為解決上述問題,本發(fā)明提出了一種基于大模型和知識(shí)庫融合的圖文混合文檔問答方法及系統(tǒng),通過多模態(tài)大模型和多種知識(shí)庫的融合,對(duì)圖文混合文檔進(jìn)行有效處理,實(shí)現(xiàn)對(duì)圖文混雜內(nèi)容的高效理解和精確問答。
2、根據(jù)一些實(shí)施例,本發(fā)明的第一方案提供了一種基于大模型和知識(shí)庫融合的圖文混合文檔問答方法,采用如下技術(shù)方案:
3、一種基于大模型和知識(shí)庫融合的圖文混合文檔問答方法,包括:
4、獲取待處理的圖文混合文檔和用戶問題;
5、對(duì)所獲取的圖文混合文檔進(jìn)行圖像、文本和表格的解析,結(jié)合大模型分別構(gòu)建向量知識(shí)庫和圖知識(shí)庫;
6、在預(yù)設(shè)的問題知識(shí)庫中檢索用戶問題,當(dāng)用戶問題的相似度超過相似度閾值時(shí),基于問題知識(shí)庫回答用戶問題,否則進(jìn)入檢索回答,完成圖文混合文檔的問答;
7、在所述檢索回答中,基于所構(gòu)建的向量知識(shí)庫和圖知識(shí)庫進(jìn)行用戶問題的檢索,融合兩種知識(shí)庫檢索結(jié)果實(shí)現(xiàn)圖文混合文檔中圖像與文本的關(guān)聯(lián),得到基于大模型的帶圖像標(biāo)識(shí)的用戶問題回答,完成基于大模型和知識(shí)庫融合的圖文混合文檔問答。
8、作為進(jìn)一步的技術(shù)限定,對(duì)所獲取的待處理圖文混合文檔進(jìn)行結(jié)構(gòu)化解析,將所述圖文混合文檔中的文字、表格和圖像按照在圖文混合文檔中的順序進(jìn)行元素解析,得到篩選出圖像、文本和表格的解析結(jié)果,所得到的解析結(jié)果中保留各個(gè)元素排列的邏輯順序;將所得到的文本和表格的解析結(jié)果定義為字符知識(shí)內(nèi)容,對(duì)所得到圖像的解析結(jié)果進(jìn)行圖像標(biāo)識(shí)后注入所述字符知識(shí)內(nèi)容中,所得到的字符知識(shí)內(nèi)容即為向量知識(shí)庫。
9、需要說明的是,本實(shí)施例通過光學(xué)字符識(shí)別ocr技術(shù)來解析圖文混合文檔中的文字元素信息,利用字符映射創(chuàng)建動(dòng)態(tài)可調(diào)畫布來解析識(shí)別圖文混合文檔中的表格元素信息;在進(jìn)行圖像元素信息解析的過程中,先篩選出圖文混合文檔中的文字元素信息和表格元素信息,即得圖像元素信息,再通過ocr技術(shù)識(shí)別圖像中的文字信息,完成圖像標(biāo)識(shí),將所識(shí)別到的圖像中的文字信息注入字符知識(shí)內(nèi)容。
10、進(jìn)一步的,基于多模態(tài)大模型進(jìn)行圖文混合文檔中圖像的解讀,結(jié)合含所述圖像標(biāo)識(shí)的文本內(nèi)容得到圖像屬性數(shù)據(jù),理解圖像在文檔中上下文的內(nèi)容,完善圖像與文檔內(nèi)容的關(guān)聯(lián)關(guān)系;將圖文混合文檔中的每個(gè)圖像標(biāo)識(shí)作為一個(gè)實(shí)體節(jié)點(diǎn),構(gòu)建每個(gè)實(shí)體節(jié)點(diǎn)的圖譜結(jié)構(gòu),完成圖知識(shí)庫的構(gòu)建。
11、進(jìn)一步的,將所得到的解析結(jié)果進(jìn)行切片處理,基于語言大模型進(jìn)行各切片的實(shí)體與關(guān)系抽取,利用大模型對(duì)實(shí)體和關(guān)系進(jìn)行描述生成,利用多模態(tài)大模型進(jìn)行圖像實(shí)體描述生成;將所得到的描述生成存入圖知識(shí)庫。
12、作為進(jìn)一步的技術(shù)限定,所述預(yù)設(shè)的問題知識(shí)庫包括若干個(gè)答案和若干個(gè)問題;其中,所述答案采用至少包括文本、表格和圖像的多模態(tài)形式,一個(gè)答案可對(duì)應(yīng)若干個(gè)問題。
13、作為進(jìn)一步的技術(shù)限定,基于預(yù)設(shè)的問題知識(shí)庫進(jìn)行用戶問題的向量化操作,在問題知識(shí)庫中檢索用戶問題,得到用戶問題的問題向量,通過比較用戶問題與所得到的用戶問題的問題向量之間的相似度,確定用戶問題的回答方式。
14、作為進(jìn)一步的技術(shù)限定,當(dāng)所得到的相似度超過相似度閾值時(shí),在所述問題知識(shí)庫中查找與用戶問題相匹配的答案,根據(jù)所匹配的答案完成圖文混合文檔的問答。
15、作為進(jìn)一步的技術(shù)限定,當(dāng)所得到的相似度不超過相似度閾值時(shí),通過檢索回答完成圖文混合文檔的問答;對(duì)用戶問題進(jìn)行關(guān)鍵問答實(shí)體及關(guān)系抽取,將所抽取到的結(jié)果在向量知識(shí)庫中進(jìn)行相似度檢索,所檢索的范圍是圖知識(shí)庫中的實(shí)體名稱、描述和關(guān)系描述,檢索后獲取前 n個(gè)最相似的實(shí)體和關(guān)系;在圖知識(shí)庫中遍歷所獲取的實(shí)體和關(guān)系,得到實(shí)體關(guān)聯(lián)信息,匯總所得到的實(shí)體關(guān)聯(lián)信息并轉(zhuǎn)化為文本描述,基于所述文本描述實(shí)現(xiàn)用戶問題中對(duì)象實(shí)體的關(guān)聯(lián)內(nèi)容整合。
16、進(jìn)一步的,對(duì)所獲取的實(shí)體和關(guān)系進(jìn)行切片處理,將切片后的實(shí)體和關(guān)系和用戶問題相似度高的前n個(gè)切片進(jìn)行組合并去重,得到與用戶問題相關(guān)聯(lián)的切片文本,匯總所有的切片文本;將所得到的文本描述和切片文本進(jìn)行大模型的理解,完成檢索回答,得到用戶問題的回答。
17、根據(jù)一些實(shí)施例,本發(fā)明的第二方案提供了一種基于大模型和知識(shí)庫融合的圖文混合文檔問答系統(tǒng),采用如下技術(shù)方案:
18、一種基于大模型和知識(shí)庫融合的圖文混合文檔問答系統(tǒng),包括:
19、獲取模塊,其被配置為獲取待處理的圖文混合文檔和用戶問題;
20、構(gòu)建模塊,其被配置為對(duì)所獲取的圖文混合文檔進(jìn)行圖像、文本和表格的解析,結(jié)合大模型分別構(gòu)建向量知識(shí)庫和圖知識(shí)庫;
21、問答模塊,其被配置為在預(yù)設(shè)的問題知識(shí)庫中檢索用戶問題,當(dāng)用戶問題的相似度超過相似度閾值時(shí),基于問題知識(shí)庫回答用戶問題,否則進(jìn)入檢索回答,完成圖文混合文檔的問答;
22、在所述檢索回答中,基于所構(gòu)建的向量知識(shí)庫和圖知識(shí)庫進(jìn)行用戶問題的檢索,融合兩種知識(shí)庫檢索結(jié)果實(shí)現(xiàn)圖文混合文檔中圖像與文本的關(guān)聯(lián),得到基于大模型的帶圖像標(biāo)識(shí)的用戶問題回答,完成基于大模型和知識(shí)庫融合的圖文混合文檔問答。
23、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果為:
24、本發(fā)明在圖文混合文檔的回答時(shí)以多模態(tài)形式給出答案,而不是解析圖像內(nèi)容并將解析結(jié)果轉(zhuǎn)化為文字描述,在問答時(shí)同時(shí)得到問題的文字回答及其參考的圖像,以避免因?qū)D像內(nèi)容理解存在偏差而導(dǎo)致問題答案不準(zhǔn)確;融合向量知識(shí)庫和圖知識(shí)庫對(duì)圖文混合文檔進(jìn)行有效處理,實(shí)現(xiàn)對(duì)圖文混雜內(nèi)容的高效理解和精確問答。