av网站播放,国产一级特黄毛片在线毛片,久久精品国产99精品丝袜,天天干夜夜要,伊人影院久久,av大全免费在线观看,国产第一区在线

一種基于小波散射變換的鳥鳴聲分類的方法

文檔序號:42197597發(fā)布日期:2025-06-17 18:11閱讀:15來源:國知局

本發(fā)明涉及鳥鳴聲識別領域,具體涉及一種基于小波散射變換和transformer編碼器的鳥鳴聲分類方法。


背景技術:

1、1.目前全球已知的鳥類種類超過一萬種,這些鳥類在生態(tài)系統(tǒng)中發(fā)揮著至關重要的作用。鳥類通常處于食物鏈的上層,通過觀察它們的生存狀態(tài),我們可以洞察生物圈的變化情況。因此,鳥類經(jīng)常被用作評估棲息地質(zhì)量和環(huán)境污染的指標。鳥類的體型較小,動作敏捷,但其鳴叫聲音清晰且具有辨識度,這使得使用鳴叫聲來研究鳥類相對于使用圖像更為簡便。通過有效的聲音監(jiān)測和分類,我們可以感知一個區(qū)域的生活質(zhì)量變化。除了作為環(huán)境評估的工具外,鳥鳴聲識別還在動物行為學、生態(tài)監(jiān)測和環(huán)境恢復等多個領域中有廣泛應用,因為鳥鳴聲攜帶了豐富的生態(tài)學信息。

2、2.音頻分類任務的目標是預測音頻輸出的分類標簽。分類模型可以為整個輸入序列預測一個標簽,也可以為每一幀預測一個不同的標簽。在分幀預測時,模型通常為每20毫秒的輸入音頻預測一個標簽,并生成一個由分類標簽概率分布組成的序列。預測單一標簽的例子如預測音頻中發(fā)出聲音的鳥的種類;預測分幀標簽的例子如說話人識別,每幀都可能由不同的說話人在發(fā)出聲音。

3、3.注意力機制(attentionmechanism)是一種在深度學習模型中廣泛使用的技術,尤其在自然語言處理(nlp)和計算機視覺(cv)領域中非常流行。這一機制的核心思想是模擬人類的注意力過程,即在處理大量信息時,能夠專注于那些最重要的部分,而忽略其他不那么重要的信息。

4、4.散射變換是一種非線性信號表示,它對幾何變換具有不變性,同時保留了高度的可辨別性。這些變換可以對平移、旋轉(對于二維或三維信號)、頻率偏移(對于一維信號)或尺度變化具有不變性。這些變換通常與許多分類和回歸任務無關,因此使用散射變換表示信號可以減少不必要的變異性,同時捕獲特定任務所需的結構。這種減少的變異性簡化了模型的構建,尤其是在訓練集較小的情況下。散射變換被定義為復值卷積神經(jīng)網(wǎng)絡,其濾波器固定為小波,非線性為復數(shù)模量。每一層都是小波變換,它將輸入信號的尺度分開。小波變換是收縮性的,復數(shù)模量也是收縮性的,因此整個網(wǎng)絡都是收縮性的。結果是方差減少,并對加性噪聲具有穩(wěn)定性。小波對尺度的分離還可以使原始信號的變形保持穩(wěn)定。這些特性使散射變換非常適合表示結構化信號,例如自然圖像、紋理、音頻記錄、生物醫(yī)學信號或分子密度函數(shù)。


技術實現(xiàn)思路

1、有鑒于此,本發(fā)明利用小波散射變換的特性,將聲音信號通過一系列特定設計的小波濾波器來提取聲音的關鍵特征,以便于更準確的分類。為達到上述目的,本發(fā)明現(xiàn)在提出以下技術方案:

2、1.采集相關的鳥鳴聲樣本,根據(jù)放置在不同地點的麥克風,采集在不同地點下的鳥鳴聲。

3、2.進行預處理,對鳥鳴聲信號進行降噪和標準化處理,保證輸入信號的質(zhì)量,以便于后續(xù)的特征提取和分類。

4、3.使用小波散射變換作為音頻特征提取器,提取多尺度多的特征。

5、4.對小波散射變換提出的特征矩陣進行轉置

6、5.構建基于小波散射變換和transformer編碼器,并設定小波散射變換的參數(shù)

7、6.對音頻數(shù)據(jù)集通過十折交叉驗證劃分為訓練集和測試集

8、7.對訓練數(shù)據(jù)和測試數(shù)據(jù)進行散射變換得到散射系數(shù),將結果作為音頻分類的輸入特征。

9、8.采用transformer編碼器對小波散射變換特征進行編碼直接用全連接層對鳥鳴聲進行分類。

10、9.根據(jù)得到的類別概率分布和真實標簽計算交叉熵損失,使用梯度下降法更新網(wǎng)絡參數(shù)。

11、10.對模型進行評估。

12、為了更清楚的說明本發(fā)明的實施或現(xiàn)有的技術方案,下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖做一簡單的介紹。

13、附圖1是本發(fā)明提出的一個基于小波散射變換進行鳥鳴聲識別的流程示意圖。附圖2是本發(fā)明使用的transform編碼器的模型結構圖。

14、附圖3是本方法在birdsdata數(shù)據(jù)集訓練之后進行十折交叉驗證的準確率。附圖4是本方法在birdsdata數(shù)據(jù)集訓練之后進行十折交叉驗證的召回率。附圖5是本方法在birdsdata數(shù)據(jù)集訓練之后進行十折交叉驗證的混淆矩陣。



技術特征:

1.一種基于小波散射變換和transformer編碼器的鳥鳴聲分類的方法,其特征在于,包括如下步驟:

2.根據(jù)權利要求1所述的基于小波散射變換和transformer編碼器的鳥鳴聲分類的方法,其特征在于,在s1中,根據(jù)放置在不同地點的麥克風,采集在不同地點下的鳥鳴聲,同時使用預加重和降噪進行預處理。

3.根據(jù)權利要求2所述的基于小波散射變換和transformer編碼器的鳥鳴聲分類的方法,其特征在于,使用預加重和降噪進行預處理的過程包括:

4.根據(jù)權利要求1所述的基于小波散射變換和transformer編碼器的鳥鳴聲分類的方法,其特征在于,在s2中,使用小波散射變換進行特征提取,對處理后的音頻利用kymatio進行小波散射變換,并構建transform編碼器模型。

5.根據(jù)權利要求4所述的基于小波散射變換和transformer編碼器的鳥鳴聲分類的方法,其特征在于,利用kymatio進行小波散射變換包括,設定j=10,q=4,得到維度為[190,31]一個二維矩陣。此時矩陣每一行表示為散射路徑在整個音頻時間提取出來的特征。注:如果輸入x是一個尺寸為(b,t)的張量,其中b是樣本數(shù)量,t是音頻點數(shù)量,那么一維散射變換的輸出尺寸為(b,p,t/2j),其中p是散射系數(shù)的數(shù)量,2j是變換的最大尺度。p的值取決于散射變換的最大階數(shù)以及參數(shù)q和j。p大致與成正比。該技術的核心在于采用一組精心設計的小波函數(shù){ψλ}λ,這些小波函數(shù)在頻域內(nèi)的能量分布被嚴格約束,保證整體能量的保持與控制。具體來說,所有小波函數(shù)的傅里葉變換的平方和,即能量總和,被限定在接近1的范圍內(nèi),確保在整個變換過程中不會引入額外的能量失衡。這種能量的約束條件可表述為

6.根據(jù)權利要求4所述的基于小波散射變換和transformer編碼器的鳥鳴聲分類的方法,其特征在于,構建transform編碼器模型過程包括:該編碼器包含12層堆疊的transformer編碼器層,每個編碼器層包括頭注意力機制,前饋網(wǎng)絡,以及歸一化和殘差連接,每一層配備了5個注意力頭。這種多頭注意力機制使得模型能夠從不同的表示子空間中學習信息,增強了模型對輸入數(shù)據(jù)多維度特征的捕捉能力。為了進一步增強模型對序列數(shù)據(jù)中全局信息的把握能力,我們引入了一個可學習的向量classtoken,常用于捕捉序列的整體語義。在處理輸入數(shù)據(jù)時,將這個classtoken向量插入到輸入矩陣的首行,從而將原始的輸入維度[32,190]擴展到[32,191]。classtoken作為序列的第一個元素,通過編碼過程聚合整個序列的信息,為后續(xù)的分類任務提供全局上下文支持。此外,我們還添加了一個可學習的位置編碼(learnable?pe),直接與輸入矩陣相加。

7.根據(jù)權利要求1所述的基于小波散射變換和transformer編碼器的鳥鳴聲分類的方法,其特征在于,在s3中,通過十折交叉驗證劃分為訓練集和測試集包括:整個數(shù)據(jù)集首先被均勻劃分成10個互不重疊的子集。在十折交叉驗證的過程中,每個子集輪流作為測試集,而剩余的九個子集合并作為訓練集。這一過程重復十次,每次選擇不同的子集作為測試集。

8.根據(jù)權利要求1所述的基于小波散射變換和transformer編碼器的鳥鳴聲分類的方法,其特征在于,在s4中,對訓練數(shù)據(jù)和測試數(shù)據(jù)進行散射變換得到散射系數(shù),將結果作為音頻分類的輸入特征包括:通過小波散射變換得到的特征矩陣并轉置,大小為[31,190],其中每一行現(xiàn)在表示在某一個時間段內(nèi)提取的特征。

9.根據(jù)權利要求1所述的基于小波散射變換和transformer編碼器的鳥鳴聲分類的方法,其特征在于,在s5中,根據(jù)得到的類別標簽在使用pytorch進行神經(jīng)網(wǎng)絡訓練時,交叉熵損失函數(shù)常用于衡量模型在多分類任務中的性能。該函數(shù)非常適合評估模型輸出和真實標簽之間的差異,因為它計算的是預測概率分布和目標分布之間的差距。在訓練過程中使用adamw優(yōu)化器來進行優(yōu)化。具體公式為:

10.根據(jù)權利要求1所述的基于小波散射變換和transformer編碼器的鳥鳴聲分類的方法,其特征在于,在s6中,編碼器的輸出被傳遞到多個全連接層,這些層負責將深層特征映射到鳥鳴聲的類別標簽上。


技術總結
本發(fā)明公開一種基于小波散射變換和Transformer編碼器的鳥鳴聲分類的方法。包括以下步驟:(1)采集相關的鳥鳴聲樣本。(2)進行預處理,對鳥鳴聲信號進行降噪和標準化處理。(3)使用小波散射網(wǎng)絡作為音頻特征提取器提取多尺度多方向的特征。(4)構建基于小波散射變換和Transformer編碼器,并設定小波散射變換的參數(shù)。(5)對音頻數(shù)據(jù)集通過十折交叉驗證劃分為訓練集和測試集。(6)對訓練數(shù)據(jù)和測試數(shù)據(jù)進行散射變換得到散射系數(shù),將結果作為音頻分類的輸入特征。(7)根據(jù)得到的類別概率分布和真實標簽計算交叉熵損失,使用梯度下降法更新網(wǎng)絡參數(shù)。(8)采用Transformer編碼器對小波散射變換特征進行編碼直接用全連接層對鳥鳴聲進行分類。

技術研發(fā)人員:歐陽軍林,雋子正
受保護的技術使用者:湖南科技大學
技術研發(fā)日:
技術公布日:2025/6/16
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1