本發(fā)明屬于聲紋識別領域,特別是涉及一種基于雙特征跨尺度融合與通道-空間注意力機制的聲紋識別方法和系統(tǒng)。
背景技術:
1、聲紋識別作為一種生物特征識別技術,憑借非接觸性、便利性和低隱私侵犯性的特點,在多個領域得到廣泛關注與應用。在金融領域,它通過高效的身份認證與實時驗證,提升交易安全性、降低驗證時間成本,增強金融機構風險防控能力并支持電話客服個性化服務;電力系統(tǒng)行業(yè)中,借助提取電力設備運行聲信號特征,實現(xiàn)實時監(jiān)測、故障診斷和外破預警;生態(tài)領域里,研究人員利用動物聲紋特征對動物種類進行檢測分類,以追蹤生態(tài)系統(tǒng)中生物多樣性狀況及變化趨勢;此外,聲紋識別與語音分離技術和端側大模型驅動的語音識別及文本摘要系統(tǒng)深度融合,能在多人會議和采訪等復雜場景中優(yōu)化語音處理。隨著深度學習在聲紋識別等領域的發(fā)展,研究人員雖圍繞多尺度特征建模、注意力機制優(yōu)化和輕量化設計改進了聲紋識別模型,但當前技術仍面臨復雜場景特征解耦不足,傳統(tǒng)單模態(tài)聲學特征在跨信道/噪聲場景易受譜畸變干擾且時頻掩蔽策略難分離混疊特征與環(huán)境干擾因子;多尺度特征協(xié)同低效,融合方法未實現(xiàn)局部與全局特征深度耦合且難兼顧時頻分辨率與特征鑒別性;效率-精度權衡困境,高性能模型計算復雜度高難部署于邊緣設備,輕量化方案又導致識別準確率與跨場景魯棒性下降這三方面核心挑戰(zhàn)。
技術實現(xiàn)思路
1、為了解決背景技術中存在的問題,本發(fā)明的一方面提供一種基于雙特征跨尺度融合與通道-空間注意力機制的聲紋識別方法,包括:通過訓練好的聲紋識別模型分別提取注冊語音信號和待驗證語音信號的說話人嵌入向量,并計算兩者說話人嵌入向量的余弦相似度,若余弦相似度得分高于設定閾值則判定注冊語音信號和待驗證語音信號為同一說話人,反之則判定注冊語音信號和待驗證語音信號為不同說話人;其中,所述聲紋識別模型包括:數(shù)據(jù)預處理模塊、plp特征提取模型、fbank特征提取模型和特征增強模塊;所述數(shù)據(jù)預處理模塊用于對語音信號進行預處理;所述plp特征提取模型用于對預處理后的語音信號進行plp特征的提取,所述fbank特征提取模型用于對預處理后的語音信號進行fbank特征的提取,并將提取的fbank特征與plp特征進行拼接融合得到語音信號的融合特征;所述特征增強模塊用于對語音信號的融合特征進行特征增強得到語音信號的說話人嵌入向量。
2、本發(fā)明的另一方面提供一種基于雙特征跨尺度融合與通道-空間注意力機制的聲紋識別系統(tǒng),所述系統(tǒng)包括存儲器和處理器;所述存儲器用于存儲應用程序;所述處理器用于運行所述應用程序,執(zhí)行所述的一種基于雙特征跨尺度融合與通道-空間注意力機制的聲紋識別方法。
3、一種計算機存儲介質(zhì),所述計算機存儲介質(zhì)上存儲有遠程監(jiān)控程序,所述遠程監(jiān)控程序被處理器執(zhí)行時實現(xiàn)所述的一種基于雙特征跨尺度融合與通道-空間注意力機制的聲紋識別方法。
4、本發(fā)明至少具有以下有益效果
5、本發(fā)明充分結合fbank與plp兩類語音特征,在低層次實現(xiàn)信息互補,以增強特征上下文(efc)模塊構建跨尺度特征調(diào)節(jié)機制,逐層優(yōu)化時間維度上的語音表示能力。同時引入cbam注意力模塊融合通道與空間注意力,在特征層增強模型對關鍵說話人特征的響應能力并抑制背景干擾。訓練階段采用aam-softmax損失函數(shù)優(yōu)化嵌入空間,使說話人嵌入向量具更強類間區(qū)分性和類內(nèi)緊致性;通過歸一化嵌入向量的余弦相似度計算及閾值判定機制實現(xiàn)高效準確身份判斷。該方法有效提升模型在嘈雜環(huán)境、跨場景條件下的識別魯棒性,兼顧性能精度與計算效率平衡,適用于多種終端設備部署與實際應用場景,具有良好通用性與推廣價值。
1.一種基于雙特征跨尺度融合與通道-空間注意力機制的聲紋識別方法,其特征在于,包括:通過訓練好的聲紋識別模型分別提取注冊語音信號和待驗證語音信號的說話人嵌入向量,并計算兩者說話人嵌入向量的余弦相似度,若余弦相似度得分高于設定閾值則判定注冊語音信號和待驗證語音信號為同一說話人,反之則判定注冊語音信號和待驗證語音信號為不同說話人;其中,所述聲紋識別模型包括:數(shù)據(jù)預處理模塊、plp特征提取模型、fbank特征提取模型和特征增強模塊;所述數(shù)據(jù)預處理模塊用于對語音信號進行預處理;所述plp特征提取模型用于對預處理后的語音信號進行plp特征的提取,所述fbank特征提取模型用于對預處理后的語音信號進行fbank特征的提取,并將提取的fbank特征與plp特征進行拼接融合得到語音信號的融合特征;所述特征增強模塊用于對語音信號的融合特征進行特征增強得到語音信號的說話人嵌入向量。
2.根據(jù)權利要求1所述的一種基于雙特征跨尺度融合與通道-空間注意力機制的聲紋識別方法,其特征在于,所述對語音信號進行預處理包括:對輸入的語音信號依次進行預加重、分幀、加窗、去靜默段、加噪、fft變換和幅值平方處理得到預處理后的語音信號。
3.根據(jù)權利要求1所述的一種基于雙特征跨尺度融合與通道-空間注意力機制的聲紋識別方法,其特征在于,所述對預處理后的語音信號進行fbank特征的提取包括:對預處理后的語音信號依次經(jīng)過mel濾波器和對數(shù)功率處理得到fbank特征;所述對對預處理后的語音信號進行plp特征的提取包括:對預處理后的語音信號依次經(jīng)過bark濾波器、等響應度預加重、強度-響度變換、逆傅里葉變換和線性預測得到plp特征。
4.根據(jù)權利要求1所述的一種基于雙特征跨尺度融合與通道-空間注意力機制的聲紋識別方法,其特征在于,所述特征增強模塊包括:利用efc?fusion?res2net?block模塊替代res2net網(wǎng)絡架構后兩層res2net-block結構,即特征增強模塊由2個res2net-block模塊和2個efc?fusion?res2net?block模塊依次進行級聯(lián);并
5.根據(jù)權利要求4所述的一種基于雙特征跨尺度融合與通道-空間注意力機制的聲紋識別方法,其特征在于,所述efc?fusion?res2net?block模塊通過1x1卷積對輸入特征處理后,按通道數(shù)拆分成s個子特征,每個子特征具有相同的空間大小,通道數(shù)是輸入特征的1/s;每個子特征表示為xi,其中,i∈{1,2,...,s};對于每個子特征xi進行如下操作:
6.根據(jù)權利要求1所述的一種基于雙特征跨尺度融合與通道-空間注意力機制的聲紋識別方法,在聲紋識別模型訓練時,將語音信號的說話人id作為標簽,利用aam-softmax損失函數(shù)對聲紋識別模型進行訓練,得到訓練好的聲紋識別模型。
7.根據(jù)權利要求1所述的一種基于雙特征跨尺度融合與通道-空間注意力機制的聲紋識別方法,所述計算兩者說話人嵌入向量的余弦相似度包括:
8.一種基于雙特征跨尺度融合與通道-空間注意力機制的聲紋識別系統(tǒng),其特征在于,所述系統(tǒng)包括存儲器和處理器;所述存儲器用于存儲應用程序;所述處理器用于運行所述應用程序,執(zhí)行如權利要求1至7任一項所述的一種基于雙特征跨尺度融合與通道-空間注意力機制的聲紋識別方法。
9.一種計算機存儲介質(zhì),其特征在于,所述計算機存儲介質(zhì)上存儲有遠程監(jiān)控程序,所述遠程監(jiān)控程序被處理器執(zhí)行時實現(xiàn)如權利要求1至7中任一項所述的一種基于雙特征跨尺度融合與通道-空間注意力機制的聲紋識別方法。