本公開涉及計算機,尤其涉及一種語音合成方法及裝置。
背景技術(shù):
1、語音合成(text-to-speech,tts)是一種將文本信息轉(zhuǎn)換為語音信息的技術(shù)。相關(guān)技術(shù)中,進行語音合成時,存在發(fā)音錯誤、韻律不足等問題。
技術(shù)實現(xiàn)思路
1、有鑒于此,本公開提出了一種語音合成方法、裝置、電子設(shè)備、存儲介質(zhì)及計算機程序產(chǎn)品。
2、根據(jù)本公開的一方面,提供了一種語音合成方法,所述方法包括:
3、獲取待合成文本;
4、對所述待合成文本進行音素轉(zhuǎn)換,得到第一音素序列,所述第一音素序列中包括至少一個音素及所述至少一個音素所在音節(jié)的音調(diào);
5、將所述第一音素序列中音素與音調(diào)進行解耦,并基于解耦后的第二音素序列提取所述待合成文本的音素特征;其中,所述第二音素序列中包括所述至少一個音素;
6、在音節(jié)維度對所述待合成文本進行文本編碼,提取出所述待合成文本的語義特征;
7、對所述語義特征及所述音素特征進行融合處理,并基于融合后的特征生成語音。
8、在一種可能的實現(xiàn)方式中,所述對所述待合成文本進行音素轉(zhuǎn)換,得到第一音素序列,包括:
9、基于所述待合成文本對應(yīng)的目標語言,對所述待合成文本中非目標語言的字符進行過濾,得到過濾后的文本;
10、將所述過濾后的文本按照所述目標語言對應(yīng)的預(yù)設(shè)停頓符號進行切分,得到多個子句;其中,所述預(yù)設(shè)停頓符號用于表示語句的停頓;
11、分別對所述多個子句中的每一子句進行音素轉(zhuǎn)換處理,得到每一子句對應(yīng)的音素子序列;
12、將所述每一子句對應(yīng)的音素子序列進行合并,得到所述第一音素序列。
13、在一種可能的實現(xiàn)方式中,所述方法還包括:
14、基于所述第一音素序列及所述第二音素序列,得到音調(diào)序列;所述音調(diào)序列中包含所述至少一個音素對應(yīng)的音調(diào);其中,任一音素對應(yīng)的音調(diào)由該音素所在音節(jié)的音調(diào)確定;
15、在所述基于融合后的特征生成語音的過程中,通過所述音調(diào)序列控制所述語音的音調(diào)。
16、在一種可能的實現(xiàn)方式中,所述在音節(jié)維度對所述待合成文本進行文本編碼,提取出所述待合成文本的語義特征,包括:
17、對所述待合成文本按照音節(jié)進行分詞處理,得到至少一個音節(jié);
18、結(jié)合預(yù)設(shè)的詞匯表,確定所述至少一個音節(jié)中每一音節(jié)對應(yīng)的編碼;其中,所述預(yù)設(shè)的詞匯表中包括不同音節(jié)與不同編碼的對應(yīng)關(guān)系;
19、基于所述至少一個音節(jié)中每一音節(jié)對應(yīng)的編碼,提取所述待合成文本的語義特征。
20、在一種可能的實現(xiàn)方式中,所述分別對所述多個子句中的每一子句進行音素轉(zhuǎn)換處理,得到每一子句對應(yīng)的音素子序列,包括:
21、針對所述多個子句中的任一子句,確定該子句是否包含預(yù)設(shè)字符;并在包含預(yù)設(shè)字符的情況下,進行歸一化處理;
22、對歸一化處理后的子句進行音素轉(zhuǎn)換處理,得到該子句對應(yīng)的音素子序列。
23、在一種可能的實現(xiàn)方式中,所述分別對所述多個子句中的每一子句進行音素轉(zhuǎn)換處理,得到每一子句對應(yīng)的音素子序列,包括:
24、針對所述多個子句中的任一子句,采用音素轉(zhuǎn)換模型進行音素轉(zhuǎn)換處理,得到該子句的音素轉(zhuǎn)換結(jié)果;
25、確定該子句的音素轉(zhuǎn)換結(jié)果中的待修正音素;
26、基于預(yù)設(shè)的音素修正詞典,將該子句的音素轉(zhuǎn)換結(jié)果中待修正音素轉(zhuǎn)換為標準音素,得到該子句對應(yīng)的音素子序列;其中,所述音素修正詞典包括:不同待修正音素與不同標準音素的對應(yīng)關(guān)系。
27、在一種可能的實現(xiàn)方式中,所述方法還包括:
28、在所述基于融合后的特征生成語音的過程中,基于持續(xù)時間模型預(yù)測所述至少一個音素中每一音素的持續(xù)時長;其中,所述持續(xù)時間模型基于音素-時長的真實對齊標簽訓(xùn)練得到。
29、在一種可能的實現(xiàn)方式中,所述方法還包括:
30、獲取所述多個子句中每一子句對應(yīng)的預(yù)設(shè)時長;
31、在生成的所述語音的時長超過所述多個子句的預(yù)設(shè)時長之和的情況下,對所述語音中至少兩個相鄰子句進行合軸處理,在合軸處理后,在所述至少兩個相鄰子句之間添加一個或多個空格,使處理后的語音的時長不大于所述多個子句的預(yù)設(shè)時長之和。
32、根據(jù)本公開的另一方面,提供了一種語音合成裝置,所述裝置包括:
33、獲取模塊,用于獲取待合成文本;
34、音素轉(zhuǎn)換模塊,用于對對所述待合成文本進行音素轉(zhuǎn)換,得到第一音素序列,所述第一音素序列中包括至少一個音素及所述至少一個音素所在音節(jié)的音調(diào);
35、音素特征提取模塊,用于將所述第一音素序列中音素與音調(diào)進行解耦,并基于解耦后的第二音素序列提取所述待合成文本的音素特征;其中,所述第二音素序列中包括所述至少一個音素;
36、語義特征提取模塊,用于在音節(jié)維度對所述待合成文本進行文本編碼,提取出所述待合成文本的語義特征;
37、語音合成模塊,用于對所述語義特征及所述音素特征進行融合處理,并基于融合后的特征生成語音。
38、根據(jù)本公開另一方面,提供了一種電子設(shè)備,包括存儲器、處理器及存儲在存儲器上的計算機程序,所述處理器執(zhí)行所述計算機程序以實現(xiàn)上述方法的步驟。
39、根據(jù)本公開另一方面,提供了一種非易失性計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)上述方法的步驟。
40、根據(jù)本公開另一方面,提供了一種計算機程序產(chǎn)品,包括計算機程序,或者承載有計算機程序的非易失性計算機可讀存儲介質(zhì),所述計算機程序被處理器執(zhí)行時實現(xiàn)上述方法的步驟。
41、通過本公開的上述各方面,獲取待合成文本;對所述待合成文本進行音素轉(zhuǎn)換,得到第一音素序列,所述第一音素序列中包括至少一個音素及所述至少一個音素所在音節(jié)的音調(diào);將所述第一音素序列中音素與音調(diào)進行解耦,并基于解耦后的第二音素序列提取所述待合成文本的音素特征;其中,所述第二音素序列中包括所述至少一個音素;在音節(jié)維度對所述待合成文本進行文本編碼,提取出所述待合成文本的語義特征;對所述語義特征及所述音素特征進行融合處理,并基于融合后的特征生成語音。這樣,將第一音素序列中音素與音調(diào)進行解耦,從而對音調(diào)的作用空間域進行隔離,進而基于解耦后的第二音素序列提取待合成文本的音素特征,提高了提取的音素特征的準確性;同時,在音節(jié)維度對所述待合成文本進行文本編碼,能夠獲得更加精確且豐富的語義特征;進而,將從解耦后的第二音素序列提取出的音素特征與語義特征進行融合,從而可以保證融合的特征的質(zhì)量,基于該融合特征合成的語音不僅發(fā)音準確,而且韻律自然,保證了合成的語音在自然度、韻律和語義一致性方面達到預(yù)期效果。
42、根據(jù)下面參考附圖對示例性實施例的詳細說明,本公開的其它特征及方面將變得清楚。
1.一種語音合成方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對所述待合成文本進行音素轉(zhuǎn)換,得到第一音素序列,包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述在音節(jié)維度對所述待合成文本進行文本編碼,提取出所述待合成文本的語義特征,包括:
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述分別對所述多個子句中的每一子句進行音素轉(zhuǎn)換處理,得到每一子句對應(yīng)的音素子序列,包括:
6.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述分別對所述多個子句中的每一子句進行音素轉(zhuǎn)換處理,得到每一子句對應(yīng)的音素子序列,包括:
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
8.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述方法還包括:
9.一種語音合成裝置,其特征在于,所述裝置包括:
10.一種電子設(shè)備,包括存儲器、處理器及存儲在存儲器上的計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序以實現(xiàn)權(quán)利要求1至8中任意一項所述方法的步驟。
11.一種非易失性計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至8中任意一項所述方法的步驟。
12.一種計算機程序產(chǎn)品,包括計算機程序,或者承載有計算機程序的非易失性計算機可讀存儲介質(zhì),其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至8中任意一項所述方法的步驟。