av网站播放,国产一级特黄毛片在线毛片,久久精品国产99精品丝袜,天天干夜夜要,伊人影院久久,av大全免费在线观看,国产第一区在线

一種基于人工智能的語音識別方法及系統(tǒng)與流程

文檔序號:42887169發(fā)布日期:2025-08-29 19:35閱讀:12來源:國知局

本發(fā)明涉及人工智能的,特別涉及一種基于人工智能的語音識別方法及系統(tǒng)。


背景技術(shù):

1、語音識別技術(shù)在過去幾十年中取得了顯著的進展,這使得我們可以利用計算機處理和理解人類的語音。傳統(tǒng)的語音識別系統(tǒng)通常依賴于聲音波形的分析,然后將其轉(zhuǎn)換為文本。這種方法不僅復(fù)雜,而且在識別非標(biāo)準(zhǔn)口音或口音變化較大的語音時,準(zhǔn)確率可能會大大降低。隨著人工智能技術(shù)的發(fā)展,尤其是深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的應(yīng)用,語音識別系統(tǒng)的準(zhǔn)確性和魯棒性得到了顯著提升。通過構(gòu)建復(fù)雜的聲音特征提取和模式識別模型,這些現(xiàn)代系統(tǒng)可以處理更多的數(shù)據(jù)量,學(xué)習(xí)到更多聲音細(xì)節(jié),從而識別出更廣泛的聲音,甚至在噪音環(huán)境中也能實現(xiàn)較好的識別效果。

2、傳統(tǒng)的基于規(guī)則的語音識別系統(tǒng)通常需要大量人工編寫規(guī)則和強大的計算資源,繁瑣且部署成本高。此外,隨著用戶需求變得多樣化,例如對于不同說話人的適應(yīng)性和對多種語言的支持等要求,傳統(tǒng)的系統(tǒng)難以滿足這些需求,容易出現(xiàn)誤識別或識別延遲的現(xiàn)象。相比之下,基于人工智能的語音識別系統(tǒng)能夠通過訓(xùn)練大量數(shù)據(jù)集來自動優(yōu)化模型,因此在靈活性和適應(yīng)性方面有了顯著提高。這種系統(tǒng)不僅能在不同環(huán)境中和多種語言間進行有效的語音識別,還能隨著使用數(shù)據(jù)量的增加,不斷學(xué)習(xí)和適應(yīng),提高識別的準(zhǔn)確性,大大降低了系統(tǒng)的維護成本和復(fù)雜度。

3、現(xiàn)有技術(shù)一,中國專利,申請?zhí)朿n202510017037.3公開了基于人工智能的語音識別評估方法。該方法包括:獲取用于待評測的語音數(shù)據(jù),對待評測的語音數(shù)據(jù)進行分析得到語音流利度指數(shù)、語音清晰度指數(shù)和語音準(zhǔn)確度指數(shù),基于語音流利度指數(shù)、語音清晰度指數(shù)和語音準(zhǔn)確度指數(shù)計算得到待評測的語音數(shù)據(jù)的第一語音質(zhì)量指數(shù);將待評測的語音數(shù)據(jù)輸入到語音內(nèi)容識別模型中,輸出待評測的語音數(shù)據(jù)的預(yù)測文本,將預(yù)測文本與標(biāo)注文本進行對比分析得到待評測的語音數(shù)據(jù)的第二語音質(zhì)量指數(shù);基于第一語音質(zhì)量指數(shù)和第二語音質(zhì)量指數(shù)得到待評測的語音數(shù)據(jù)對應(yīng)的語音識別評估結(jié)果。本發(fā)明能夠提高語音識別效果的評估效率與準(zhǔn)確性:

4、現(xiàn)有技術(shù)二,中國專利,申請?zhí)朿n201710339663.x公開了一種基于人工智能的語音識別方法及裝置,其中,方法包括:對麥克風(fēng)陣列進行采集,獲取多路第一語音信號;基于wpe算法去除每路第一語音信號中的混響信號,得到每路第二語音信號,并將每路第二語音信號通過mvdr波束形成器,獲取一路第三語音信號;將第三語音信號分別輸入到自適應(yīng)阻塞矩陣模塊和自適應(yīng)干擾消除模塊中;在自適應(yīng)阻塞矩陣模塊中基于第三語音信號與每路第一語音信號進行噪聲提取,得到每路的第一噪聲信號;在自適應(yīng)干擾消除模塊中將每路的第一噪聲信號進行濾波后疊加,得到一路的第二噪聲信號,并將第三語音信號與第二噪聲信號相減,得到目標(biāo)語音信號。實現(xiàn)了對輸入信號進行解混響、增強、去噪聲處理,提高了遠場語音識別率。

5、目前現(xiàn)有技術(shù)一、現(xiàn)有技術(shù)二存在依賴于大量高質(zhì)量的數(shù)據(jù)進行訓(xùn)練和評估,數(shù)據(jù)質(zhì)量不高或分布不一致可能導(dǎo)致性能下降,在實時處理中存在延遲,影響用戶體驗。在需要快速響應(yīng)的應(yīng)用場景中,如實時會議轉(zhuǎn)錄,延遲可能成為一個關(guān)鍵問題。因而,本發(fā)明提供一種基于人工智能的語音識別方法及系統(tǒng)。


技術(shù)實現(xiàn)思路

1、為達到上述目的,本發(fā)明采用如下技術(shù)方案:

2、本發(fā)明的一方面,提供一種基于人工智能的語音識別方法,包含以下步驟:

3、通過麥克風(fēng)陣列采集多路語音信號;

4、對每路語音信號進行降噪處理,去除背景噪聲,采用自適應(yīng)波束形成算法對語音信號進行增強,提取目標(biāo)語音信號;

5、對預(yù)處理后的語音信號進行短時傅里葉變換,提取語音頻譜特征,通過深度學(xué)習(xí)模型提取語音的高層語義特征;

6、將提取的語音特征輸入到基于注意力機制的語音識別模型中,生成目標(biāo)語音的文本轉(zhuǎn)錄,通過自適應(yīng)學(xué)習(xí)模塊動態(tài)調(diào)整模型參數(shù),優(yōu)化識別結(jié)果;

7、根據(jù)用戶的實時反饋對識別結(jié)果進行校正,將校正后的數(shù)據(jù)用于模型的在線更新,提高系統(tǒng)的魯棒性和適應(yīng)性。

8、一種可選的實施方式中,所述語音信號預(yù)處理步驟還包括:采用改進的wpe算法對語音信號進行解混響處理,去除混響信號;通過多維聲源定位算法確定目標(biāo)語音的方向,進一步優(yōu)化波束形成效果。

9、一種可選的實施方式中,所述對預(yù)處理后的語音信號進行短時傅里葉變換,提取語音頻譜特征的步驟包括將語音信號從時域轉(zhuǎn)換到頻域,分析信號在不同時間點的頻率成分,將語音信號劃分為多個重疊的短時間幀,對每個短時間幀進行快速傅里葉變換,得到該幀的頻譜,將所有幀的頻譜按時間順序排列,形成二維頻譜圖,其中橫軸為時間,縱軸為頻率,圖中的顏色表示能量強度;

10、從頻譜圖中提取能夠反映語音特性的特征,便于后續(xù)處理,將頻譜圖轉(zhuǎn)換為梅爾頻率尺度,模擬人類聽覺系統(tǒng)對頻率的感知特性,通過線性預(yù)測編碼或lpc倒譜系數(shù)提取語音的頻譜包絡(luò)信息;

11、利用深度學(xué)習(xí)模型從語音頻譜特征中提取更抽象、更具語義信息的特征表示,通過多層卷積操作提取語音信號的局部特征和層次化特征,通過循環(huán)結(jié)構(gòu)捕捉語音信號的時間依賴性,提取長短期特征,通過注意力機制動態(tài)聚焦于語音信號中的關(guān)鍵部分。

12、一種可選的實施方式中,所述將提取的語音特征輸入到基于注意力機制的語音識別模型中,生成目標(biāo)語音的文本轉(zhuǎn)錄的步驟包括確保輸入的語音特征符合模型的要求,便于模型處理,對提取的語音特征進行歸一化處理,確保所有特征的分布一致,有助于模型的收斂,對輸入的特征序列進行對齊處理,將語音特征編碼為模型可接受的格式;

13、將準(zhǔn)備好的語音特征輸入到基于注意力機制的語音識別模型中,將輸入的語音特征轉(zhuǎn)換為高級的表示形式,便于后續(xù)的文本生成,根據(jù)編碼器生成的特征表示,逐步生成目標(biāo)文本,根據(jù)解碼器的處理結(jié)果,生成目標(biāo)語音的文本轉(zhuǎn)錄,對生成的文本轉(zhuǎn)錄進行優(yōu)化和調(diào)整,提高其準(zhǔn)確性和可讀性,通過不斷地優(yōu)化和迭代,提高模型的識別準(zhǔn)確率和魯棒性,確保語音識別系統(tǒng)實時響應(yīng)用戶的語音輸入,適用于實時應(yīng)用場景,實現(xiàn)對多種語言的語音識別,擴大系統(tǒng)的應(yīng)用范圍,通過用戶反饋機制,動態(tài)調(diào)整模型參數(shù),優(yōu)化識別結(jié)果,提供個性化的語音識別服務(wù)。

14、一種可選的實施方式中,所述基于注意力機制的語音識別模型通常包括編碼器和解碼器兩個部分,編碼器負(fù)責(zé)將輸入的語音特征轉(zhuǎn)換為高級的表示形式,解碼器則根據(jù)編碼器的輸出生成目標(biāo)文本;

15、在編碼器中,自注意力機制是一個關(guān)鍵部分,允許模型在處理每個輸入位置時,關(guān)注到整個輸入序列中的其他位置的信息,通過這種方式,模型捕捉到語音信號中的上下文關(guān)系;

16、解碼器部分則引入了交叉注意力機制,使得解碼器在生成每個輸出位置時,關(guān)注到編碼器輸出的特征表示中相關(guān)的信息;

17、注意力機制通過計算查詢、鍵和值之間的相似性來實現(xiàn),具體的計算公式可以表示為:

18、其中,q、k和v分別是查詢、鍵和值矩陣,dk是鍵的維度,用于縮放點積結(jié)果,防止數(shù)值過大。

19、一種可選的實施方式中,所述根據(jù)用戶的實時反饋對識別結(jié)果進行校正的步驟包括從用戶處獲取語音識別結(jié)果的校正信息,在用戶界面中添加一個反饋按鈕或選項,允許用戶對識別結(jié)果進行校正,當(dāng)用戶提交校正信息時,記錄原始語音數(shù)據(jù)、模型的初始識別結(jié)果以及用戶的校正文本,將校正數(shù)據(jù)存儲在數(shù)據(jù)庫中,以便后續(xù)處理和訓(xùn)練;

20、對收集到的反饋數(shù)據(jù)進行清洗和格式化,確保數(shù)據(jù)質(zhì)量,選擇在線學(xué)習(xí)策略,確保模型利用反饋數(shù)據(jù)進行更新,利用反饋數(shù)據(jù)對模型進行更新,提高識別準(zhǔn)確率,驗證模型更新后的性能,確保反饋數(shù)據(jù)的利用有效,將更新后的模型部署到生產(chǎn)環(huán)境,提供更優(yōu)質(zhì)的服務(wù),建立一個持續(xù)的反饋循環(huán),不斷優(yōu)化模型性能,通過反饋數(shù)據(jù),增強模型在不同場景和語言下的魯棒性和適應(yīng)性,優(yōu)化計算資源的使用,確保在線更新不影響系統(tǒng)的實時性,確保模型在更新后能夠長期穩(wěn)定運行,適應(yīng)不斷變化的用戶需求。

21、一種可選的實施方式中,所述從語音信號中提取有用的特征,供模型處理,通過傅里葉變換和梅爾濾波器組提取語音的頻譜特征,使用深度學(xué)習(xí)模型、提取高級的語音特征,計算公式如下:

22、mfcc=dct(log(mel(fft(x))))

23、其中,x是語音信號,fft是快速傅里葉變換,mel是梅爾濾波器組,dct是離散余弦變換;

24、使用反饋數(shù)據(jù)對模型進行微調(diào),隨機梯度下降或adam優(yōu)化器,梯度下降更新公式如下:

25、

26、其中,θ是模型參數(shù),η是學(xué)習(xí)率,l是損失函數(shù);

27、在目標(biāo)檢測中,存在多個重疊的邊界框,使用非極大值抑制來選擇具有最高置信度的框,并抑制與之重疊且置信度較低的框;計算目標(biāo)檢測的準(zhǔn)確率和召回率,準(zhǔn)確率表示模型正確識別目標(biāo)的能力,召回率表示模型找到所有目標(biāo)的能力,其表達式如下所示:

28、

29、構(gòu)建混淆矩陣,展示真正例和假正例和真負(fù)例和假負(fù)例的數(shù)量,分析模型的性能;f1分?jǐn)?shù)是準(zhǔn)確率和召回率的調(diào)和平均數(shù),通過f1份數(shù)評估算法性能,其表達式如下所示:

30、

31、其中,precision為模型的準(zhǔn)確率;recall為模型的召回率;

32、將目標(biāo)檢測的結(jié)果可視化,通過在圖像上繪制邊界框來展示算法的表現(xiàn),根據(jù)性能評估的結(jié)果,調(diào)整模型的學(xué)習(xí)率和閾值超參數(shù)。

33、本發(fā)明的另一方面,提供一種基于人工智能的語音識別系統(tǒng),包括:

34、語音信號采集模塊:用于通過麥克風(fēng)陣列采集多路語音信號;

35、語音信號預(yù)處理模塊:降噪子模塊,用于去除背景噪聲;波束形成子模塊,用于增強目標(biāo)語音信號;

36、特征提取模塊:頻譜特征提取子模塊,用于提取語音的頻譜特征;深度特征提取子模塊,用于提取語音的高層語義特征;

37、語音識別模塊:基于注意力機制的語音識別子模塊,用于生成目標(biāo)語音的文本轉(zhuǎn)錄;自適應(yīng)學(xué)習(xí)子模塊,用于動態(tài)調(diào)整模型參數(shù);

38、實時反饋與優(yōu)化模塊:用戶反饋接口,用于獲取用戶的校正信息;在線學(xué)習(xí)子模塊,用于對模型參數(shù)進行動態(tài)更新。

39、本發(fā)明的另一方面,提供一種電子設(shè)備,包括:

40、至少一個存儲器,非瞬時性地存儲有計算機可執(zhí)行指令;

41、至少一個處理器,配置為運行所述計算機可執(zhí)行指令;

42、其中,所述計算機可執(zhí)行指令被所述處理器運行時實現(xiàn)上述所述的一種基于人工智能的語音識別方法。

43、本發(fā)明的另一方面,提供一種計算機可讀存儲介質(zhì),其中,所述計算機可讀存儲介質(zhì)存儲有計算機可執(zhí)行指令,所述計算機可執(zhí)行指令被至少一個處理器執(zhí)行時實現(xiàn)上述所述的一種基于人工智能的語音識別方法。

44、本發(fā)明一種基于人工智能的語音識別方法通過麥克風(fēng)陣列采集多路語音信號;對每路語音信號進行降噪處理,去除背景噪聲,采用自適應(yīng)波束形成算法對語音信號進行增強,提取目標(biāo)語音信號;對預(yù)處理后的語音信號進行短時傅里葉變換,提取語音頻譜特征,通過深度學(xué)習(xí)模型提取語音的高層語義特征;將提取的語音特征輸入到基于注意力機制的語音識別模型中,生成目標(biāo)語音的文本轉(zhuǎn)錄,通過自適應(yīng)學(xué)習(xí)模塊動態(tài)調(diào)整模型參數(shù),優(yōu)化識別結(jié)果;根據(jù)用戶的實時反饋對識別結(jié)果進行校正,將校正后的數(shù)據(jù)用于模型的在線更新,提高系統(tǒng)的魯棒性和適應(yīng)性,具有通過高質(zhì)量的數(shù)據(jù)進行訓(xùn)練和評估,在實時處理中降低延遲的效果。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1