本發(fā)明涉及數(shù)據(jù)分類與處理,尤其涉及一種基于大模型的目標(biāo)數(shù)據(jù)分類處理方法、裝置及電子設(shè)備。
背景技術(shù):
1、隨著人工智能的發(fā)展,尤其是深度學(xué)習(xí)技術(shù)的進(jìn)步,圖像識(shí)別、自然語(yǔ)言處理等領(lǐng)域取得了顯著進(jìn)展。然而,在實(shí)際應(yīng)用中,如何高效準(zhǔn)確地對(duì)海量且多樣的目標(biāo)數(shù)據(jù)進(jìn)行分類仍然是一個(gè)挑戰(zhàn)。傳統(tǒng)的分類算法往往依賴于手工特征提取,不僅耗時(shí)費(fèi)力,而且難以適應(yīng)不同類型的數(shù)據(jù)源。
2、近年來(lái),基于大規(guī)模數(shù)據(jù)集訓(xùn)練的大模型展現(xiàn)出了卓越的表現(xiàn)能力,能夠自動(dòng)學(xué)習(xí)到豐富的特征表示,為解決上述問(wèn)題提供了新的思路。但是,直接使用這些大模型面臨著計(jì)算資源需求高、模型微調(diào)復(fù)雜等問(wèn)題。
3、因此,迫切需要一種有效的基于大模型的目標(biāo)數(shù)據(jù)分類處理方案,既能充分利用大模型的強(qiáng)大表達(dá)能力,又能克服其在實(shí)際部署中的局限性。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于大模型的目標(biāo)數(shù)據(jù)分類處理方法、裝置及電子設(shè)備,以解決現(xiàn)有技術(shù)存在的問(wèn)題中的至少一個(gè)。
2、為實(shí)現(xiàn)上述目的,根據(jù)本技術(shù)的一個(gè)方面,本發(fā)明提供了一種基于大模型的目標(biāo)數(shù)據(jù)分類處理方法,包括:
3、集中采集文本數(shù)據(jù)和文本數(shù)據(jù)的發(fā)布時(shí)間;
4、基于文本數(shù)據(jù)和文本數(shù)據(jù)的發(fā)布時(shí)間,提取目標(biāo)文本數(shù)據(jù),并以目標(biāo)文本數(shù)據(jù)建立初始數(shù)據(jù)匹配模型,并對(duì)初始數(shù)據(jù)匹配模型進(jìn)行第一沖突檢測(cè);
5、實(shí)時(shí)采集新增文本數(shù)據(jù),并以新增文本數(shù)據(jù)對(duì)初始數(shù)據(jù)匹配模型中映射關(guān)系的集合進(jìn)行二次沖突檢測(cè),并更新初始數(shù)據(jù)匹配模型,得到實(shí)時(shí)數(shù)據(jù)匹配模型;
6、采集用戶的原始數(shù)據(jù),并將用戶的原始數(shù)據(jù)與實(shí)時(shí)數(shù)據(jù)匹配模型進(jìn)行關(guān)系匹配,進(jìn)而通過(guò)關(guān)系匹配結(jié)果對(duì)目標(biāo)文本數(shù)據(jù)進(jìn)行分類。
7、可選地,對(duì)文本數(shù)據(jù)進(jìn)行自然語(yǔ)言處理,以提取文本數(shù)據(jù)中的需求條件集合和滿足結(jié)果集合;
8、將第i文本數(shù)據(jù)的需求條件集合記作x(i),將第i文本數(shù)據(jù)的滿足結(jié)果集合記作r(i);
9、對(duì)各需求條件集合進(jìn)行邏輯匹配,并對(duì)匹配成功的需求條件集合所對(duì)應(yīng)的滿足結(jié)果集合進(jìn)行合并操作;
10、建立合并后第i文本數(shù)據(jù)的需求條件集合與第i文本數(shù)據(jù)的滿足結(jié)果集合的映射關(guān)系,并將其映射關(guān)系記作x(i)-r(i);
11、以映射關(guān)系的集合作為初始數(shù)據(jù)匹配模型。
12、可選地,檢測(cè)各映射關(guān)系中的沖突事件,并在檢測(cè)結(jié)果為:需求條件集合中存在沖突事件時(shí),判定事件邏輯錯(cuò)誤,并將該需求條件集合所對(duì)應(yīng)的初始滿足結(jié)果集合進(jìn)行刪除,進(jìn)而將該需求條件集合所對(duì)應(yīng)的文本數(shù)據(jù)向管理用戶發(fā)送;
13、在檢測(cè)結(jié)果為:滿足結(jié)果集合中存在沖突事件時(shí),判定事件合并錯(cuò)誤,并對(duì)該滿足結(jié)果集合所在的映射關(guān)系中的需求條件集合所對(duì)應(yīng)的文本數(shù)據(jù)進(jìn)行報(bào)錯(cuò),將該文本數(shù)據(jù)向管理用戶發(fā)送;
14、在檢測(cè)結(jié)果為:映射關(guān)系中,滿足結(jié)果集合中存在與需求條件集合相同的事件時(shí),將該事件定義為同一事件,并將該同一事件從該滿足結(jié)果集合中刪除;
15、將一次更新后的映射關(guān)系記作n[x(i)-r(i)]。
16、可選地,以文本數(shù)據(jù)的處理方式對(duì)新增文本數(shù)據(jù)進(jìn)行處理,以得到新增事件結(jié)合,進(jìn)而分類得到新增條件結(jié)合和新增結(jié)果集合;
17、對(duì)新增條件集合與各需求條件集合進(jìn)行邏輯匹配,并在匹配成功時(shí),將新增結(jié)果集合與匹配成功的需求條件集合進(jìn)行合并操作,此時(shí),對(duì)新增結(jié)果集合中的各事件設(shè)置時(shí)效權(quán)重,將時(shí)效權(quán)重設(shè)定為w1(k);
18、在匹配失敗時(shí),將時(shí)效權(quán)重設(shè)定為w2(k);
19、對(duì)實(shí)時(shí)數(shù)據(jù)匹配模型進(jìn)行二次沖突檢測(cè),并在檢測(cè)結(jié)果為:滿足結(jié)果集合中存在沖突事件時(shí),以新增結(jié)果集合中的事件對(duì)沖突的滿足結(jié)果集合進(jìn)行替換;在檢測(cè)結(jié)果為:需求條件集合中存在沖突事件或滿足結(jié)果集合中存在與需求條件集合相同的事件時(shí),以一次沖突檢測(cè)的處理方式進(jìn)行二次更新。
20、可選地,結(jié)合用戶的原始數(shù)據(jù),以所述實(shí)時(shí)數(shù)據(jù)匹配模型對(duì)用戶的二次條件進(jìn)行推斷,其具體過(guò)程如下:
21、將用戶的原始數(shù)據(jù)中的事件與各需求條件集合進(jìn)行完全匹配,并在完全匹配成功時(shí),將完全匹配成功的滿足結(jié)果集合作為次生條件,進(jìn)而以用戶的原始數(shù)據(jù)的條件和次生條件與各需求條件集合進(jìn)行完全匹配,在完全匹配成功時(shí),將完全匹配成功的滿足結(jié)果集合作為次生條件,以此過(guò)程進(jìn)行迭代,并在迭代后得到新的次生條件數(shù)量為0時(shí),結(jié)束迭代過(guò)程,將所有次生條件劃分為二次條件。
22、可選地,以用戶的原始條件和二次條件輸入至實(shí)時(shí)數(shù)據(jù)匹配模型,并以一次沖突檢測(cè)的方式對(duì)映射關(guān)系集合進(jìn)行三次沖突檢測(cè):將用戶的原始條件和二次條件與需求條件集合中存在沖突事件的映射關(guān)系設(shè)定為沖突映射關(guān)系;反之,不列為沖突映射關(guān)系;
23、將實(shí)時(shí)數(shù)據(jù)匹配模型中除沖突映射關(guān)系之外的映射關(guān)系進(jìn)行分類,其分類過(guò)程如下:
24、將用戶的原始條件和二次條件部分滿足的映射關(guān)系作為缺陷映射關(guān)系;
25、將用戶的原始條件和二次條件完全滿足的映射關(guān)系作為符合映射關(guān)系。
26、可選地,統(tǒng)計(jì)各映射關(guān)系的達(dá)成率μ(q),并依據(jù)三次沖突檢測(cè)的結(jié)果對(duì)關(guān)系匹配成功的映射關(guān)系進(jìn)行分類,其過(guò)程如下:
27、計(jì)算各缺陷映射關(guān)系的達(dá)成指數(shù)α(q)=μ(q)×η1/(σ時(shí)效權(quán)重)×w(q);
28、計(jì)算各符合映射關(guān)系的達(dá)成指數(shù)β(q)=μ(q)×η2/(σ時(shí)效權(quán)重);
29、式中,η1表示第一分類常數(shù),η2表示第二分類常數(shù),η2>η1,w(q)表示第q映射關(guān)系的用戶達(dá)成的條件的比例,qq表示第q映射關(guān)系的達(dá)成用戶的數(shù)量;
30、設(shè)定分類閾值將關(guān)系匹配成功的映射關(guān)系進(jìn)行分類,以將超出分類閾值的映射關(guān)系作為可達(dá)成映射關(guān)系,反之,作為異常映射關(guān)系。
31、可選地,還包括:以映射關(guān)系的分類結(jié)果作為目標(biāo)文本數(shù)據(jù)的分類結(jié)果向用戶進(jìn)行文本數(shù)據(jù)推送;
32、以映射關(guān)系的分類結(jié)果作為目標(biāo)文本數(shù)據(jù)的分類結(jié)果向用戶進(jìn)行文本數(shù)據(jù)推送;
33、統(tǒng)計(jì)反饋周期內(nèi)用戶反饋結(jié)果,并以用戶反饋結(jié)果提取反饋條件;
34、以反饋條件對(duì)實(shí)時(shí)數(shù)據(jù)匹配模型進(jìn)行三次更新;
35、通過(guò)設(shè)置反饋閾值對(duì)各推送映射關(guān)系的反饋達(dá)成率進(jìn)行比對(duì)判斷,在反饋達(dá)成率大于或等于反饋閾值時(shí),確定反饋條件為非必要條件,不對(duì)實(shí)時(shí)數(shù)據(jù)匹配模型進(jìn)行三次更新,在反饋達(dá)成率小于反饋閾值時(shí),確定反饋條件為必要條件,并將反饋條件補(bǔ)充至對(duì)應(yīng)映射關(guān)系的需求條件集合中。
36、根據(jù)本技術(shù)的另一方面,提供了一種基于大模型的目標(biāo)數(shù)據(jù)分類處理裝置,包括:
37、數(shù)據(jù)采集模塊,用于集中采集文本數(shù)據(jù)和文本數(shù)據(jù)的發(fā)布時(shí)間;
38、模型建立模塊,用于基于文本數(shù)據(jù)和文本數(shù)據(jù)的發(fā)布時(shí)間,提取目標(biāo)文本數(shù)據(jù),并以目標(biāo)文本數(shù)據(jù)建立初始數(shù)據(jù)匹配模型,并對(duì)初始數(shù)據(jù)匹配模型進(jìn)行第一沖突檢測(cè);
39、實(shí)時(shí)更新模塊,用于實(shí)時(shí)采集新增文本數(shù)據(jù),并以新增文本數(shù)據(jù)對(duì)初始數(shù)據(jù)匹配模型中映射關(guān)系的集合進(jìn)行二次沖突檢測(cè),并更新初始數(shù)據(jù)匹配模型,得到實(shí)時(shí)數(shù)據(jù)匹配模型;
40、數(shù)據(jù)分類模塊,用于采集用戶的原始數(shù)據(jù),并將用戶的原始數(shù)據(jù)與實(shí)時(shí)數(shù)據(jù)匹配模型進(jìn)行關(guān)系匹配,進(jìn)而通過(guò)關(guān)系匹配結(jié)果對(duì)目標(biāo)文本數(shù)據(jù)進(jìn)行分類;
41、反饋更新模塊,用于以映射關(guān)系的分類結(jié)果作為目標(biāo)文本數(shù)據(jù)的分類結(jié)果向用戶進(jìn)行文本數(shù)據(jù)推送。
42、根據(jù)本技術(shù)的再一方面,提供了一種電子設(shè)備,所述電子設(shè)備包括:
43、一個(gè)或多個(gè)處理器;
44、存儲(chǔ)裝置,用于存儲(chǔ)一個(gè)或多個(gè)程序;
45、當(dāng)所述一個(gè)或多個(gè)程序被所述一個(gè)或多個(gè)處理器執(zhí)行,使得所述一個(gè)或多個(gè)處理器實(shí)現(xiàn)所述的基于大模型的目標(biāo)數(shù)據(jù)分類處理方法。
46、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果在于:提供了一種基于大模型的目標(biāo)數(shù)據(jù)分類處理方法、裝置及電子設(shè)備,通過(guò)集中采集文本數(shù)據(jù)建立初始匹配模型并進(jìn)行沖突檢測(cè),確保邏輯準(zhǔn)確性;實(shí)時(shí)處理新增數(shù)據(jù)以動(dòng)態(tài)更新模型,增強(qiáng)適應(yīng)性;結(jié)合用戶原始數(shù)據(jù)進(jìn)行關(guān)系匹配和分類,實(shí)現(xiàn)個(gè)性化推送;并利用反饋機(jī)制校正模型,持續(xù)優(yōu)化。該方法顯著提高了目標(biāo)數(shù)據(jù)的分類處理效率,減少了錯(cuò)誤率,支持實(shí)時(shí)數(shù)據(jù)響應(yīng)和個(gè)性化服務(wù),同時(shí)通過(guò)時(shí)效權(quán)重和沖突檢測(cè)機(jī)制提升系統(tǒng)魯棒性和可靠性,適用于政務(wù)服務(wù)等大數(shù)據(jù)場(chǎng)景,整體提升數(shù)據(jù)處理自動(dòng)化水平和用戶體驗(yàn)。