本發(fā)明涉及人工智能,更具體地說,涉及一種結(jié)合速度建模的csi時(shí)空人體關(guān)鍵點(diǎn)檢測方法。
背景技術(shù):
1、現(xiàn)有的大多數(shù)csi人體姿態(tài)估計(jì)方法主要依賴于單幀數(shù)據(jù)進(jìn)行獨(dú)立推測,這使得在進(jìn)行連續(xù)姿態(tài)估計(jì)時(shí),難以有效捕捉連續(xù)動(dòng)作之間的時(shí)序關(guān)聯(lián)。由于相鄰幀數(shù)據(jù)未得到充分結(jié)合,生成的骨架序列可能出現(xiàn)明顯的跳變現(xiàn)象,無法反映人體動(dòng)作的自然過渡。尤其在需要實(shí)時(shí)追蹤和監(jiān)控人體姿態(tài)的場景中(如監(jiān)測連續(xù)動(dòng)作或長期動(dòng)態(tài)姿勢),這種跳變現(xiàn)象會(huì)大大降低姿態(tài)估計(jì)的穩(wěn)定性和可靠性。
2、另外,現(xiàn)有的基于單幀估計(jì)的csi人體關(guān)鍵點(diǎn)檢測網(wǎng)絡(luò)用于人體姿態(tài)估計(jì)方法中,在時(shí)序信息提取方面存在不足,未能充分挖掘csi數(shù)據(jù)在時(shí)間維度上的相關(guān)性以及幀與幀之間的姿態(tài)關(guān)聯(lián)。這導(dǎo)致了人體姿態(tài)估計(jì)精度的受限,并在處理連續(xù)性和動(dòng)態(tài)性較強(qiáng)的場景時(shí),表現(xiàn)不盡如人意。
3、同時(shí),傳統(tǒng)csi人體關(guān)鍵點(diǎn)檢測方法側(cè)重于靜態(tài)空間結(jié)構(gòu)特征的提取,忽略了人體動(dòng)作過程中骨架空間關(guān)系的時(shí)序動(dòng)態(tài)變化。隨著動(dòng)作的進(jìn)行,人體關(guān)鍵點(diǎn)之間的相對(duì)位置會(huì)不斷變化,因此,檢測方法需要能夠動(dòng)態(tài)學(xué)習(xí)人體結(jié)構(gòu)在空間中的變化規(guī)律,以更準(zhǔn)確地反映人體姿態(tài)的演變。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于克服現(xiàn)有技術(shù)中的缺點(diǎn)與不足,提供一種結(jié)合速度建模的csi時(shí)空人體關(guān)鍵點(diǎn)檢測方法,該檢測方法可實(shí)現(xiàn)更精確、更平穩(wěn)的連續(xù)csi估計(jì),顯著提升了人體關(guān)鍵點(diǎn)估計(jì)的穩(wěn)定性和準(zhǔn)確性。另外,該檢測方法進(jìn)一步規(guī)范人體的運(yùn)動(dòng)軌跡,使生成的骨架序列更符合人體自然運(yùn)動(dòng)的軌跡,從而實(shí)現(xiàn)更平滑且穩(wěn)定的姿態(tài)估計(jì)。
2、為了達(dá)到上述目的,本發(fā)明通過下述技術(shù)方案予以實(shí)現(xiàn):一種結(jié)合速度建模的csi時(shí)空人體關(guān)鍵點(diǎn)檢測方法,其特征在于:包括以下步驟:
3、第一步,同步采集視頻數(shù)據(jù)和csi數(shù)據(jù),并進(jìn)行時(shí)間戳對(duì)齊操作;對(duì)視頻數(shù)據(jù)的人體關(guān)鍵點(diǎn)數(shù)據(jù)進(jìn)行標(biāo)注,并獲取人體關(guān)鍵點(diǎn)數(shù)據(jù)對(duì)應(yīng)的csi數(shù)據(jù);
4、第二步,將人體關(guān)鍵點(diǎn)數(shù)據(jù)和csi數(shù)據(jù)劃分為數(shù)據(jù)集和訓(xùn)練集,采用滑動(dòng)窗口方法對(duì)數(shù)據(jù)集和訓(xùn)練集的人體關(guān)鍵點(diǎn)數(shù)據(jù)和csi數(shù)據(jù)進(jìn)行提取,得到t幀關(guān)鍵點(diǎn)骨架序列數(shù)據(jù)和對(duì)應(yīng)的t幀csi時(shí)間序列數(shù)據(jù);
5、第三步,建立csi人體關(guān)鍵點(diǎn)時(shí)序檢測網(wǎng)絡(luò);采用訓(xùn)練集對(duì)csi人體關(guān)鍵點(diǎn)時(shí)序檢測網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到訓(xùn)練好的csi人體關(guān)鍵點(diǎn)時(shí)序檢測網(wǎng)絡(luò);
6、該csi人體關(guān)鍵點(diǎn)時(shí)序檢測網(wǎng)絡(luò)采用多層時(shí)空建模模塊,每個(gè)時(shí)空建模模塊均由“時(shí)間-空間”和“空間-時(shí)間”兩分支自注意力機(jī)制融合而成,得到人體關(guān)鍵點(diǎn)特征,以捕捉t幀csi時(shí)間序列數(shù)據(jù)在連續(xù)幀之間的時(shí)間相關(guān)性和空間信息;
7、每個(gè)時(shí)空建模模塊還引出速度分支,每個(gè)時(shí)空建模模塊的速度分支結(jié)果相加以融合得到全局速度特征,實(shí)現(xiàn)約束連續(xù)幀之間的人體關(guān)鍵點(diǎn)位移和方向,使生成的關(guān)鍵點(diǎn)骨架序列更符合人體自然運(yùn)動(dòng)軌跡,以實(shí)現(xiàn)更平滑穩(wěn)定的姿態(tài)估計(jì);
8、第四步,采用訓(xùn)練好的csi人體關(guān)鍵點(diǎn)時(shí)序檢測網(wǎng)絡(luò)對(duì)人體關(guān)鍵點(diǎn)的檢測,實(shí)現(xiàn)人體關(guān)鍵點(diǎn)估計(jì)和速度估計(jì),以實(shí)現(xiàn)人體姿態(tài)估計(jì)。
9、在上述方案中,本發(fā)明可以解決現(xiàn)有技術(shù)中關(guān)鍵點(diǎn)估計(jì)的跳變問題。本發(fā)明以多幀csi數(shù)據(jù)為輸入,輸出對(duì)應(yīng)的多幀關(guān)鍵點(diǎn),實(shí)現(xiàn)更精確、更平穩(wěn)的連續(xù)csi估計(jì),顯著提升了關(guān)鍵點(diǎn)估計(jì)的穩(wěn)定性和準(zhǔn)確性,這種改進(jìn)為連續(xù)動(dòng)作監(jiān)測和長時(shí)間姿態(tài)追蹤等任務(wù)提供了更為可靠的解決方案。另外,本發(fā)明采用多層時(shí)空建模模塊,每個(gè)時(shí)空建模模塊由“時(shí)間-空間”和“空間-時(shí)間”兩分支自注意力機(jī)制融合而成,其中,時(shí)間自注意力機(jī)制捕捉csi信號(hào)在連續(xù)幀之間的時(shí)間相關(guān)性,提煉人體動(dòng)作的動(dòng)態(tài)特征,避免關(guān)鍵點(diǎn)估計(jì)的跳變,而空間多頭自注意力機(jī)制學(xué)習(xí)人體骨架的空間結(jié)構(gòu)特征,確保關(guān)鍵點(diǎn)之間的空間關(guān)系符合人體結(jié)構(gòu)規(guī)律。兩分支按不同順序連接,有側(cè)重地學(xué)習(xí)時(shí)間和空間信息。同時(shí),時(shí)空建模模塊還引出速度分支,每個(gè)時(shí)空建模模塊的速度分支結(jié)果相加以融合全局的速度信息,速度估計(jì)可以約束連續(xù)幀之間的關(guān)鍵點(diǎn)位移和方向,使生成的骨架序列更符合人體自然運(yùn)動(dòng)軌跡,實(shí)現(xiàn)更平滑穩(wěn)定的姿態(tài)估計(jì)。
10、具體地說,第二步中,所述采用滑動(dòng)窗口方法對(duì)數(shù)據(jù)集和訓(xùn)練集的人體關(guān)鍵點(diǎn)數(shù)據(jù)和csi數(shù)據(jù)進(jìn)行提取,得到t幀關(guān)鍵點(diǎn)骨架序列數(shù)據(jù)和對(duì)應(yīng)的t幀csi時(shí)間序列數(shù)據(jù)是指:
11、第一步的人體關(guān)鍵點(diǎn)數(shù)據(jù)為gsample∈r17×2,代表17個(gè)人體關(guān)鍵點(diǎn)的坐標(biāo);第一步的csi數(shù)據(jù)為一幀csi信號(hào)xsample∈r3×90×5,代表3根發(fā)射天線,90代表3根接收天線乘30個(gè)振幅數(shù)據(jù)的子載波組成,5個(gè)csi連續(xù)采樣數(shù)據(jù);
12、采用滑動(dòng)窗口方法提取數(shù)據(jù)后,得到t幀csi時(shí)間序列數(shù)據(jù)xc∈rt×3×90×5和t幀關(guān)鍵點(diǎn)骨架序列數(shù)據(jù)gkp∈rt×17×2,其中,t是時(shí)間序列長度。
13、第三步中,所述csi人體關(guān)鍵點(diǎn)時(shí)序檢測網(wǎng)絡(luò)包括特征提取模塊、若干個(gè)時(shí)空建模模塊、速度解碼器和關(guān)鍵點(diǎn)解碼器;若干個(gè)時(shí)空建模模塊級(jí)聯(lián)組成并分別與特征提取模塊和關(guān)鍵點(diǎn)解碼器連接;每個(gè)時(shí)空建模模塊引出的速度分支相加融合后與速度解碼器連接。
14、所述特征提取模塊由3層使用relu激活函數(shù)的卷積模塊構(gòu)成;t幀csi時(shí)間序列數(shù)據(jù)通過第一層卷積模塊后使用最大池化層下采樣,再通過后面兩層卷積模塊下采樣,最后進(jìn)行全連接層擴(kuò)展得到特征提取模塊輸出:
15、
16、其中,分別為t幀csi時(shí)間序列數(shù)據(jù)xc通過每層卷積模塊下采樣后的輸出,第三層卷積模塊下采樣的輸出為其中j是人體關(guān)鍵點(diǎn)個(gè)數(shù),j=17;
17、將在(h,w)維度進(jìn)行展平并使用全連接層擴(kuò)展最后一個(gè)維度的信息,得到特征提取模塊輸出:
18、
19、其中,dim是全連接層的輸出維度。
20、每個(gè)所述時(shí)空建模模塊包括由時(shí)間模塊和空間模塊順序連接組成的第一分支以及由空間模塊和時(shí)間模塊順序連接組成的第二分支;
21、將位置編碼加入至特征提取模塊輸出的不同維度,得到時(shí)空建模模塊的輸入:
22、
23、將時(shí)空建模模塊的輸入分別輸入由時(shí)間模塊和空間模塊順序連接組成的第一分支以及由空間模塊和時(shí)間模塊順序連接組成的第二分支,進(jìn)行自注意力機(jī)制融合,得到人體關(guān)鍵點(diǎn)特征融合結(jié)果;
24、其中,f0∈rt×j×dim,為可學(xué)習(xí)的空間編碼參數(shù),為可學(xué)習(xí)的時(shí)間編碼參數(shù)。
25、所述空間模塊由空間多頭自注意力機(jī)制組成,對(duì)空間模塊的輸入提取t個(gè)時(shí)間步中每一個(gè)時(shí)間步的空間特征t代表第t個(gè)時(shí)間步t∈1,…,t,;
26、使用自注意力機(jī)制獲得多頭注意力機(jī)制中的3個(gè)向量
27、
28、其中分別是可學(xué)習(xí)的投影矩陣,i代表第i個(gè)時(shí)空建模模塊,i∈1,…,n,t代表第t個(gè)時(shí)間步i∈1,…,t,;h代表第h個(gè)頭數(shù),h∈1,…,h,;
29、最終得到空間多頭注意力的輸出:
30、
31、其中,是投影參數(shù)矩陣,dk是ks的維數(shù),i∈1,…,n,
32、對(duì)t個(gè)時(shí)間步分別使用同一個(gè)空間多頭注意力機(jī)制后,將t個(gè)時(shí)間步的結(jié)果通過堆疊,形狀變換的方式,變回初始維度(t,j,dim)并輸入多層感知機(jī),然后經(jīng)過殘差連接并使用層歸一化得到最終空間模塊的輸出
33、
34、整個(gè)空間模塊的計(jì)算過程用si表示,i代表第i個(gè)時(shí)空建模模塊;
35、所述時(shí)間模塊由時(shí)間多頭自注意力機(jī)制組成,時(shí)間模塊的輸入為將人體關(guān)鍵點(diǎn)個(gè)數(shù)j和dim所在維度展平成cflatten維數(shù),得到
36、
37、使用自注意力機(jī)制獲得多頭注意力機(jī)制中的3個(gè)向量:
38、
39、其中分別是可學(xué)習(xí)的投影矩陣,i代表第i個(gè)時(shí)空建模模塊,i∈1,…,n,;h代表第h個(gè)頭數(shù),h∈1,…,h,;
40、最終得到時(shí)間多頭注意力的輸出:
41、
42、其中,是投影參數(shù)矩陣,dk是kt矩陣的維數(shù),i∈1,…,n
43、將時(shí)間多頭注意力的輸出tmhsa重新變回輸入形狀(t,j,dim)后輸入至多層感知機(jī),然后經(jīng)過殘差連接并使用層歸一化得到最終時(shí)間模塊的輸出
44、
45、其中i∈1,…,n,時(shí)間模塊計(jì)算的整個(gè)過程用ti表示,i代表第i個(gè)時(shí)空建模模塊。
46、計(jì)算第i個(gè)時(shí)空模塊中,第一分支和第二分支的可學(xué)習(xí)的權(quán)重參數(shù)兩個(gè)權(quán)重參數(shù)的結(jié)果相加為1,計(jì)算公式如下:
47、
48、其中,w是可學(xué)習(xí)參數(shù)矩陣,concat代表將兩個(gè)分支的結(jié)果進(jìn)行拼接,softmax函數(shù)將兩個(gè)權(quán)重參數(shù)轉(zhuǎn)換為概率分布,使得兩個(gè)權(quán)重的和為1;
49、將權(quán)重參數(shù)與第一分支和第二分支的輸出進(jìn)行逐元素點(diǎn)乘,得到最終分支融合結(jié)果fi,fi也將作為于下一個(gè)時(shí)空建模模塊的特征輸入:
50、
51、其中,代表第i個(gè)時(shí)空建模模塊中,時(shí)間模塊和空間模塊順序連接組成的第一分支的特征輸出;代表第i個(gè)時(shí)空建模模塊中,空間模塊和時(shí)間模塊順序連接組成的第二分支的特征輸出;fi-1為第i-1個(gè)時(shí)空建模模塊的特征輸出,也為第i個(gè)時(shí)空建模模塊的特征輸入。
52、在每個(gè)時(shí)空建模模塊中引出第一速度分支和第二速度分支:
53、
54、其中,代表第i個(gè)時(shí)空建模模塊中,時(shí)間模塊和空間模塊順序連接組成的第一分支的空間模塊特征輸出;代表第i個(gè)時(shí)空建模模塊中,空間模塊和時(shí)間模塊順序連接組成的第二分支的時(shí)間模塊特征輸出;fi-1為第i-1個(gè)時(shí)空建模模塊的特征輸出,也為第i個(gè)時(shí)空建模模塊的特征輸入;
55、計(jì)算第i個(gè)時(shí)空模塊中,第一速度分支和第二速度分支的可學(xué)習(xí)的權(quán)重參數(shù)兩個(gè)權(quán)重參數(shù)的結(jié)果相加為1,計(jì)算公式如下;
56、
57、wm是w是可學(xué)習(xí)參數(shù)矩陣;concat代表將兩個(gè)速度分支的結(jié)果進(jìn)行拼接;softmax函數(shù)將兩個(gè)權(quán)重參數(shù)轉(zhuǎn)換為概率分布,使得兩個(gè)權(quán)重的和為1;
58、將權(quán)重參數(shù)與第一速度分支和第二速度分支的輸出進(jìn)行加權(quán)融合,最終獲得第i個(gè)時(shí)空建模模塊的速度特征:
59、
60、其中,vi∈rt×j×dim。
61、該csi人體關(guān)鍵點(diǎn)時(shí)序檢測網(wǎng)絡(luò)采用n個(gè)時(shí)空建模模塊采用n級(jí)聯(lián)組成,共獲得n個(gè)速度特征,速度特征輸入至速度解碼器中相加來融合不同時(shí)間和空間尺度的速度信息:
62、
63、將vsum輸入至transformer?encoder模塊中,并輸出結(jié)果:
64、vfeature=transformerencoderlayer(vsum)[0,:,:]
65、vfeature∈rj×dim;
66、將vfeature進(jìn)行展平輸入至兩個(gè)全連接層進(jìn)行尺寸變換,最終輸出形狀變換到速度的表示形狀,得到人體關(guān)鍵點(diǎn)的速度估計(jì)結(jié)果:
67、
68、其中,ov1,ov2是速度解碼器的中間結(jié)果。
69、該csi人體關(guān)鍵點(diǎn)時(shí)序檢測網(wǎng)絡(luò)采用n個(gè)時(shí)空建模模塊采用n級(jí)聯(lián)組成,關(guān)鍵點(diǎn)特征為最后一個(gè)時(shí)空模塊的輸出fn∈rt×j×dim;
70、將人體關(guān)鍵點(diǎn)個(gè)數(shù)j和dim所在維度進(jìn)行展平;將fn輸入至關(guān)鍵點(diǎn)解碼器的兩個(gè)全連接層進(jìn)行尺寸變換,最終變換到人體關(guān)鍵點(diǎn)估計(jì)結(jié)果:
71、
72、其中,ok1,ok2是關(guān)鍵點(diǎn)解碼器的中間結(jié)果;
73、計(jì)算包含關(guān)鍵點(diǎn)損失以及速度損失的損失函數(shù):
74、
75、其中,t幀csi時(shí)間序列數(shù)據(jù)對(duì)應(yīng)的真實(shí)速度信息標(biāo)注gspeed=gkp[-1,:,:]-gkp[0,:,:],gkp∈rt×17×2,為t幀關(guān)鍵點(diǎn)骨架序列數(shù)據(jù)gkp∈rt×17×2;α代表速度信息在損失公式中所占的權(quán)重;
76、根據(jù)損失函數(shù)判斷csi人體關(guān)鍵點(diǎn)時(shí)序檢測網(wǎng)絡(luò)是否訓(xùn)練完成。
77、本發(fā)明結(jié)合速度建模的csi時(shí)空人體關(guān)鍵點(diǎn)檢測方法的優(yōu)點(diǎn)為:
78、1、csi人體關(guān)鍵點(diǎn)時(shí)序檢測網(wǎng)絡(luò):
79、本發(fā)明csi人體關(guān)鍵點(diǎn)時(shí)序檢測網(wǎng)絡(luò)能夠處理多幀csi數(shù)據(jù),輸出對(duì)應(yīng)的多幀關(guān)鍵點(diǎn),實(shí)現(xiàn)更精確、更平穩(wěn)的連續(xù)關(guān)鍵點(diǎn)估計(jì)。該網(wǎng)絡(luò)通過學(xué)習(xí)關(guān)鍵點(diǎn)速度信息,有效減少了關(guān)鍵點(diǎn)估計(jì)的跳變現(xiàn)象,提高了姿態(tài)估計(jì)的穩(wěn)定性和準(zhǔn)確性。
80、2、速度和關(guān)鍵點(diǎn)聯(lián)合估計(jì)的時(shí)空建模模塊:
81、本發(fā)明引入的時(shí)空建模模塊包含“時(shí)間-空間”和“空間-時(shí)間”兩分支自注意力機(jī)制,能夠同時(shí)提取csi數(shù)據(jù)中的時(shí)間和空間信息。關(guān)鍵點(diǎn)特征由兩分支的最終輸出通過可學(xué)習(xí)權(quán)重進(jìn)行融合;速度特征從“時(shí)間-空間”分支的時(shí)間模塊和“空間-時(shí)間”分支的空間模塊的結(jié)果中同時(shí)引出,通過可學(xué)習(xí)權(quán)重進(jìn)行融合。所有時(shí)空建模模塊的速度分支結(jié)果相加,得到全局速度特征。最終全局速度特征由一層transformer和兩層全連接層構(gòu)成,用于得到最終的關(guān)鍵點(diǎn)估計(jì)和速度估計(jì),以實(shí)現(xiàn)人體姿態(tài)估計(jì)。
82、本發(fā)明通過速度估計(jì),能夠獲得關(guān)鍵點(diǎn)序列的絕對(duì)速度和方向信息,進(jìn)一步規(guī)范人體的運(yùn)動(dòng)軌跡,使生成的骨架序列更符合人體自然運(yùn)動(dòng)的軌跡,從而實(shí)現(xiàn)更平滑且穩(wěn)定的姿態(tài)估計(jì)。
83、3、加入速度建模的關(guān)鍵點(diǎn)估計(jì)方法:
84、通過計(jì)算關(guān)鍵點(diǎn)序列的最后一幀與第一幀的差值,獲得關(guān)鍵點(diǎn)的絕對(duì)速度和方向信息,增加連續(xù)關(guān)鍵點(diǎn)檢測任務(wù)的軌跡穩(wěn)定性。這種方法不僅適用于csi數(shù)據(jù)的關(guān)鍵點(diǎn)估計(jì),還可以應(yīng)用于連續(xù)視頻幀的關(guān)鍵點(diǎn)估計(jì)、2d轉(zhuǎn)3d關(guān)鍵點(diǎn)估計(jì)以及其他時(shí)序關(guān)鍵點(diǎn)檢測任務(wù),具有廣泛的適用性和擴(kuò)展性。
85、與現(xiàn)有技術(shù)相比,本發(fā)明具有如下優(yōu)點(diǎn)與有益效果:本發(fā)明結(jié)合速度建模的csi時(shí)空人體關(guān)鍵點(diǎn)檢測方法可實(shí)現(xiàn)更精確、更平穩(wěn)的連續(xù)csi估計(jì),顯著提升了人體關(guān)鍵點(diǎn)估計(jì)的穩(wěn)定性和準(zhǔn)確性。另外,該檢測方法進(jìn)一步規(guī)范人體的運(yùn)動(dòng)軌跡,使生成的骨架序列更符合人體自然運(yùn)動(dòng)的軌跡,從而實(shí)現(xiàn)更平滑且穩(wěn)定的姿態(tài)估計(jì)。