本申請涉及語音處理領(lǐng)域,尤其涉及一種低延遲語音合成方法、裝置、設(shè)備和介質(zhì)。
背景技術(shù):
1、傳統(tǒng)的語音合成技術(shù),盡管已經(jīng)能夠?qū)崿F(xiàn)將文本信息轉(zhuǎn)換為語音的功能,但在實際應(yīng)用中往往存在延遲較高的問題。這種延遲源于模型訓(xùn)練的復(fù)雜性、語音合成過程的處理時間以及數(shù)據(jù)傳輸?shù)钠款i等多個方面。高延遲不僅影響了用戶體驗的流暢性,還限制語音合成技術(shù)在某些對實時性要求較高的場景中的應(yīng)用。
2、另外,現(xiàn)有技術(shù)更聚焦于如何通過有效的模型訓(xùn)練方法,提升語音合成的質(zhì)量和效率,但在實際應(yīng)用中,模型的泛化能力仍然是個問題。由于語音數(shù)據(jù)的復(fù)雜性和多樣性,模型在面對新的、未曾在訓(xùn)練數(shù)據(jù)中見過的語音特征時,會表現(xiàn)出明顯的性能下降。
3、另外,高質(zhì)量的語音數(shù)據(jù)收集和處理,以及高性能計算資源的投入,會讓模型訓(xùn)練過程變得極其耗時,在某些應(yīng)用場景中,用戶期望能夠獲得即時的語音反饋。然而,當前的語音合成方法無法滿足這種高實時性的需求,尤其是在處理長句子或復(fù)雜文本時。
技術(shù)實現(xiàn)思路
1、有鑒于此,本發(fā)明實施例提供一種低延遲語音合成方法、裝置、設(shè)備和介質(zhì),以解決上述至少一個技術(shù)問題。
2、為實現(xiàn)上述目的,第一方面,提供一種低延遲語音合成方法,其包括:
3、對輸入文本進行規(guī)范化處理,得到規(guī)范化文本;
4、對所述規(guī)范化文本進行分詞處理、詞性標注處理和韻律信息分析,得到語言結(jié)構(gòu)化文本;
5、利用深度學(xué)習(xí)算法對所述語言結(jié)構(gòu)化文本進行特征提取,得到文本特征向量;
6、使用基于變換器的非自回歸的語音合成模型,將所述文本特征向量轉(zhuǎn)換為語音信號。
7、第二方面,提供一種低延遲語音合成裝置,其包括:
8、文本規(guī)范化處理模塊,用于對輸入文本進行規(guī)范化處理,得到規(guī)范化文本;
9、語言結(jié)構(gòu)化處理模塊,用于對所述規(guī)范化文本進行詞性標注處理、分詞處理和韻律信息分析,得到語言結(jié)構(gòu)化文本;
10、特征提取模塊,利用深度學(xué)習(xí)算法對所述語言結(jié)構(gòu)化文本進行特征提取,得到文本特征向量;
11、語音合成模塊,使用基于變換器的非自回歸的語音合成模型,將所述文本特征向量轉(zhuǎn)換為語音信號。
12、第三方面,提供一種電子設(shè)備,其包括:
13、一個或多個處理器;
14、存儲裝置,用于存儲一個或多個程序,
15、當所述一個或多個程序被所述一個或多個處理器執(zhí)行,使得所述一個或多個處理器實現(xiàn)如第一方面中任一所述的低延遲語音合成方法。
16、第四方面,提供一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述程序被處理器執(zhí)行時實現(xiàn)如第一方面中任一所述的低延遲語音合成方法。
17、上述技術(shù)方案具有如下有益技術(shù)效果:
18、本發(fā)明提出的低延遲語音合成方法通過創(chuàng)新的文本處理和語音合成技術(shù),提升了語音合成的性能和效率。該方法首先對輸入文本進行精細的規(guī)范化處理,確保文本的標準性和一致性;隨后,通過分詞、詞性標注和韻律信息分析,將文本轉(zhuǎn)換為高度結(jié)構(gòu)化的語言表達。利用深度學(xué)習(xí)算法,尤其是基于bert的語義編碼和多任務(wù)變換器,可以從語言結(jié)構(gòu)化文本中提取豐富、多維度的語義和韻律特征,生成高質(zhì)量的文本特征向量。最后,采用基于變換器的非自回歸語音合成模型,通過并行解碼和時間步長動態(tài)調(diào)整,實現(xiàn)快速、自然的語音信號生成。與傳統(tǒng)方法相比,本發(fā)明降低了語音合成的延遲時間,提高了語音的自然度和表現(xiàn)力。
1.一種低延遲語音合成方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟s10具體包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟s20具體包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟s30具體包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟s40具體包括:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,在步驟s10之前還包括:對語音合成模型進行訓(xùn)練,得到訓(xùn)練好的語音合成模型;
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括步驟s60:對所述語音信號進行去噪和音量調(diào)整,生成處理后的語音信號,并通過音頻輸出設(shè)備進行播放或保存。
8.一種低延遲語音合成裝置,其特征在于,包括:
9.一種電子設(shè)備,其特征在于,包括:
10.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1-7中任一所述的一種低延遲語音合成方法。