一種低延遲語音合成方法、裝置、設(shè)備和介質(zhì)與流程

文檔序號：42193273發(fā)布日期：2025-06-17 18:07閱讀：14來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本申請涉及語音處理領(lǐng)域，尤其涉及一種低延遲語音合成方法、裝置、設(shè)備和介質(zhì)。

背景技術(shù)：

1、傳統(tǒng)的語音合成技術(shù)，盡管已經(jīng)能夠?qū)崿F(xiàn)將文本信息轉(zhuǎn)換為語音的功能，但在實際應(yīng)用中往往存在延遲較高的問題。這種延遲源于模型訓(xùn)練的復(fù)雜性、語音合成過程的處理時間以及數(shù)據(jù)傳輸?shù)钠款i等多個方面。高延遲不僅影響了用戶體驗的流暢性，還限制語音合成技術(shù)在某些對實時性要求較高的場景中的應(yīng)用。

2、另外，現(xiàn)有技術(shù)更聚焦于如何通過有效的模型訓(xùn)練方法，提升語音合成的質(zhì)量和效率，但在實際應(yīng)用中，模型的泛化能力仍然是個問題。由于語音數(shù)據(jù)的復(fù)雜性和多樣性，模型在面對新的、未曾在訓(xùn)練數(shù)據(jù)中見過的語音特征時，會表現(xiàn)出明顯的性能下降。

3、另外，高質(zhì)量的語音數(shù)據(jù)收集和處理，以及高性能計算資源的投入，會讓模型訓(xùn)練過程變得極其耗時，在某些應(yīng)用場景中，用戶期望能夠獲得即時的語音反饋。然而，當前的語音合成方法無法滿足這種高實時性的需求，尤其是在處理長句子或復(fù)雜文本時。

技術(shù)實現(xiàn)思路

1、有鑒于此，本發(fā)明實施例提供一種低延遲語音合成方法、裝置、設(shè)備和介質(zhì)，以解決上述至少一個技術(shù)問題。

2、為實現(xiàn)上述目的，第一方面，提供一種低延遲語音合成方法，其包括：

3、對輸入文本進行規(guī)范化處理，得到規(guī)范化文本；

4、對所述規(guī)范化文本進行分詞處理、詞性標注處理和韻律信息分析，得到語言結(jié)構(gòu)化文本；

5、利用深度學(xué)習(xí)算法對所述語言結(jié)構(gòu)化文本進行特征提取，得到文本特征向量；

6、使用基于變換器的非自回歸的語音合成模型，將所述文本特征向量轉(zhuǎn)換為語音信號。

7、第二方面，提供一種低延遲語音合成裝置，其包括：

8、文本規(guī)范化處理模塊，用于對輸入文本進行規(guī)范化處理，得到規(guī)范化文本；

9、語言結(jié)構(gòu)化處理模塊，用于對所述規(guī)范化文本進行詞性標注處理、分詞處理和韻律信息分析，得到語言結(jié)構(gòu)化文本；

10、特征提取模塊，利用深度學(xué)習(xí)算法對所述語言結(jié)構(gòu)化文本進行特征提取，得到文本特征向量；

11、語音合成模塊，使用基于變換器的非自回歸的語音合成模型，將所述文本特征向量轉(zhuǎn)換為語音信號。

12、第三方面，提供一種電子設(shè)備，其包括：

13、一個或多個處理器；

14、存儲裝置，用于存儲一個或多個程序，

15、當所述一個或多個程序被所述一個或多個處理器執(zhí)行，使得所述一個或多個處理器實現(xiàn)如第一方面中任一所述的低延遲語音合成方法。

16、第四方面，提供一種計算機可讀存儲介質(zhì)，其上存儲有計算機程序，所述程序被處理器執(zhí)行時實現(xiàn)如第一方面中任一所述的低延遲語音合成方法。

17、上述技術(shù)方案具有如下有益技術(shù)效果：

18、本發(fā)明提出的低延遲語音合成方法通過創(chuàng)新的文本處理和語音合成技術(shù)，提升了語音合成的性能和效率。該方法首先對輸入文本進行精細的規(guī)范化處理，確保文本的標準性和一致性；隨后，通過分詞、詞性標注和韻律信息分析，將文本轉(zhuǎn)換為高度結(jié)構(gòu)化的語言表達。利用深度學(xué)習(xí)算法，尤其是基于bert的語義編碼和多任務(wù)變換器，可以從語言結(jié)構(gòu)化文本中提取豐富、多維度的語義和韻律特征，生成高質(zhì)量的文本特征向量。最后，采用基于變換器的非自回歸語音合成模型，通過并行解碼和時間步長動態(tài)調(diào)整，實現(xiàn)快速、自然的語音信號生成。與傳統(tǒng)方法相比，本發(fā)明降低了語音合成的延遲時間，提高了語音的自然度和表現(xiàn)力。

技術(shù)特征：

1.一種低延遲語音合成方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，步驟s10具體包括：

3.根據(jù)權(quán)利要求1所述的方法，其特征在于，步驟s20具體包括：

4.根據(jù)權(quán)利要求1所述的方法，其特征在于，步驟s30具體包括：

5.根據(jù)權(quán)利要求1所述的方法，其特征在于，步驟s40具體包括：

6.根據(jù)權(quán)利要求1所述的方法，其特征在于，在步驟s10之前還包括：對語音合成模型進行訓(xùn)練，得到訓(xùn)練好的語音合成模型；

7.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述方法還包括步驟s60：對所述語音信號進行去噪和音量調(diào)整，生成處理后的語音信號，并通過音頻輸出設(shè)備進行播放或保存。

8.一種低延遲語音合成裝置，其特征在于，包括：

9.一種電子設(shè)備，其特征在于，包括：

10.一種計算機可讀存儲介質(zhì)，其上存儲有計算機程序，其特征在于，所述程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1-7中任一所述的一種低延遲語音合成方法。

技術(shù)總結(jié)
本發(fā)明公開了一種低延遲語音合成方法、裝置、介質(zhì)和設(shè)備，屬于語音處理技術(shù)領(lǐng)域，所述方法包括：S10：對輸入文本進行規(guī)范化處理，得到規(guī)范化文本；S20：對所述規(guī)范化文本進行分詞處理、詞性標注處理和韻律信息分析，得到語言結(jié)構(gòu)化文本；S30：利用深度學(xué)習(xí)算法對所述語言結(jié)構(gòu)化文本進行特征提取，得到文本特征向量；S40：使用基于變換器的非自回歸的語音合成模型，將所述文本特征向量轉(zhuǎn)換為語音信號。本發(fā)明降低了語音合成的延遲時間，提高了語音的自然度和表現(xiàn)力。

技術(shù)研發(fā)人員：王若曦,周繼敏
受保護的技術(shù)使用者：北京宇信科技集團股份有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/6/16

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王若曦,周繼敏
技術(shù)所有人：北京宇信科技集團股份有限公司
我是此專利的發(fā)明人

上一篇：一種具有可擴展性的燈具的制作方法
下一篇：一種提升貼合物OCA貼合膠厚度的結(jié)構(gòu)的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

av网站播放,国产一级特黄毛片在线毛片,久久精品国产99精品丝袜,天天干夜夜要,伊人影院久久,av大全免费在线观看,国产第一区在线

一種低延遲語音合成方法、裝置、設(shè)備和介質(zhì)與流程

一種低延遲語音合成方法、裝置、設(shè)備和介質(zhì)與流程