本發(fā)明涉及計(jì)算機(jī)視覺(jué)與模式識(shí)別、監(jiān)控視頻追蹤領(lǐng)域,具體是一種基于動(dòng)態(tài)特征協(xié)同優(yōu)化的監(jiān)控視頻智能追蹤方法。
背景技術(shù):
1、在多方位的現(xiàn)實(shí)世界應(yīng)用場(chǎng)景中,監(jiān)控視頻需要具備動(dòng)態(tài)特征協(xié)同優(yōu)化智能跟蹤匹配能力,可以有效的識(shí)別到目標(biāo)并跟蹤目標(biāo)。所以,目標(biāo)的動(dòng)態(tài)特征協(xié)同優(yōu)化方法是監(jiān)控視頻能夠準(zhǔn)確執(zhí)行任務(wù)的關(guān)鍵因素。雖然隨著視覺(jué)技術(shù)的發(fā)展,單目標(biāo)跟蹤技術(shù)也變得更成熟,跟蹤的準(zhǔn)確率也越來(lái)越高。但其面臨的挑戰(zhàn)同樣復(fù)雜和多樣,尤其是在復(fù)雜場(chǎng)景中的遮擋、目標(biāo)形態(tài)變化、目標(biāo)和背景無(wú)法分別等問(wèn)題。在傳統(tǒng)的特征匹配方法中,目標(biāo)的外觀特征與背景特征往往難以完全分離,尤其是在目標(biāo)與背景特征相似的情況下,這種干擾現(xiàn)象更加明顯。現(xiàn)在有的方法存在局限性,無(wú)法滿足對(duì)監(jiān)控視頻目標(biāo)識(shí)別跟蹤的高準(zhǔn)確性和快速的要求。
2、目前的監(jiān)控視頻的追蹤匹配方法存在諸多不足,主要表現(xiàn)在以下幾個(gè)方面:第一,遮擋問(wèn)題,盡管單目標(biāo)跟蹤技術(shù)具備一定的抗遮擋能力,但在復(fù)雜環(huán)境下,當(dāng)目標(biāo)被長(zhǎng)時(shí)間或完全遮擋時(shí),跟蹤效果仍然會(huì)受到較大影響。例如,目標(biāo)完全被人群或物體遮擋時(shí),跟蹤算法可能會(huì)失去對(duì)目標(biāo)的定位,導(dǎo)致目標(biāo)丟失。第二,在復(fù)雜的監(jiān)控場(chǎng)景中,背景可能包含大量動(dòng)態(tài)物體(如樹(shù)葉、車(chē)輛、行人等),這些元素會(huì)對(duì)單目標(biāo)跟蹤算法造成干擾。背景的動(dòng)態(tài)變化可能導(dǎo)致跟蹤算法誤判,將背景中的動(dòng)態(tài)物體誤認(rèn)為目標(biāo),尤其在背景與目標(biāo)相似的情況下。第三,目標(biāo)外觀變化處理能力有限,在實(shí)際應(yīng)用中,目標(biāo)外觀可能發(fā)生顯著變化,例如由于光照變化、目標(biāo)姿態(tài)變化、目標(biāo)快速移動(dòng)或目標(biāo)本身外觀改變(如穿衣風(fēng)格、攜帶物品等)。雖然一些追蹤匹配方法可以部分解決這一問(wèn)題,但在外觀變化劇烈或快速的情況下,跟蹤算法仍然難以準(zhǔn)確跟蹤目標(biāo)。第四,實(shí)時(shí)性能受限,單目標(biāo)跟蹤的追蹤匹配方法在計(jì)算復(fù)雜度上較高,特別是當(dāng)處理高分辨率視頻或需要同時(shí)監(jiān)控多個(gè)目標(biāo)時(shí),系統(tǒng)的實(shí)時(shí)性能容易受到限制。復(fù)雜的跟蹤和匹配算法在低計(jì)算資源環(huán)境中可能無(wú)法達(dá)到實(shí)時(shí)響應(yīng)的需求。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的是針對(duì)現(xiàn)有技術(shù)的不足,而提供一種基于動(dòng)態(tài)特征協(xié)同優(yōu)化的監(jiān)控視頻智能追蹤方法,旨在實(shí)現(xiàn)監(jiān)控視頻的自適應(yīng)匹配。這種方法融合了先進(jìn)的transformer模型和單目標(biāo)跟蹤技術(shù),以提供對(duì)于相似物干擾、遮擋以及目標(biāo)快速運(yùn)動(dòng)等復(fù)雜條件下的高精準(zhǔn)度識(shí)別和跟蹤能力。通過(guò)動(dòng)態(tài)特征協(xié)同優(yōu)化智能追蹤方法匹配目標(biāo)物體并精確定位其位置,本發(fā)明的方法旨在提高監(jiān)控視頻追蹤在各種動(dòng)態(tài)場(chǎng)景中的適應(yīng)能力,為其準(zhǔn)確執(zhí)行任務(wù)提供可靠的基礎(chǔ)支持。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:一種基于動(dòng)態(tài)特征協(xié)同優(yōu)化的監(jiān)控視頻智能追蹤方法,包括如下步驟:
3、(1)采集和標(biāo)注監(jiān)控視頻追蹤使用場(chǎng)景數(shù)據(jù)集,并將所述場(chǎng)景數(shù)據(jù)集分類(lèi)為訓(xùn)練集和測(cè)試集;
4、(2)定義動(dòng)態(tài)特征協(xié)同優(yōu)化智能追蹤模型:指定目標(biāo)的位置和類(lèi)別,采用預(yù)測(cè)邊界框來(lái)定位后續(xù)視頻幀中目標(biāo)的位置,并標(biāo)明邊界框包圍目標(biāo)物體所屬的前背景類(lèi)別信息,動(dòng)態(tài)特征協(xié)同優(yōu)化智能追蹤模型的預(yù)測(cè)邊界框設(shè)定為軸對(duì)齊的矩形框,動(dòng)態(tài)特征協(xié)同優(yōu)化智能追蹤模型由簡(jiǎn)單的提取目標(biāo)特征的編碼器和生成跟蹤結(jié)構(gòu)的解碼器,動(dòng)態(tài)特征協(xié)同優(yōu)化融合模塊組成;
5、(3)學(xué)習(xí)動(dòng)態(tài)特征協(xié)同優(yōu)化智能追蹤模型:包括訓(xùn)練跟蹤器階段和測(cè)試跟蹤器階段,其中,
6、(3-1)訓(xùn)練跟蹤器階段:監(jiān)控視頻動(dòng)態(tài)特征協(xié)同優(yōu)化智能跟蹤器采用seqtrack作為基準(zhǔn)模型,讀取圖片后基于目標(biāo)框中心位置對(duì)目標(biāo)裁剪,然后對(duì)所有批量圖片進(jìn)行抖動(dòng)、數(shù)據(jù)增廣即變換顏色空間、隨機(jī)平移、歸一化,經(jīng)過(guò)數(shù)據(jù)增廣后的圖片作為動(dòng)態(tài)特征協(xié)同優(yōu)化智能追蹤模型的輸入數(shù)據(jù),先經(jīng)過(guò)編碼器進(jìn)行特征提取,然后經(jīng)過(guò)動(dòng)態(tài)特征協(xié)同優(yōu)化融合方法和解碼器聯(lián)系和建模模板幀和搜索幀的關(guān)系,得出跟蹤的結(jié)果;
7、(3-2)測(cè)試跟蹤器階段:首先從監(jiān)控視頻追蹤使用場(chǎng)景數(shù)據(jù)集的測(cè)試集部分讀取不同于訓(xùn)練數(shù)據(jù)集場(chǎng)景的圖片,將讀取的圖片裁剪后將處理后的圖片作為動(dòng)態(tài)特征協(xié)同優(yōu)化智能追蹤模型的輸入數(shù)據(jù),經(jīng)過(guò)動(dòng)態(tài)特征協(xié)同優(yōu)化智能追蹤模型后,輸出當(dāng)前幀的目標(biāo)跟蹤預(yù)測(cè)結(jié)果。
8、優(yōu)選的,所述步驟(1)具體包括如下步驟:
9、(1-1)采集各種不同類(lèi)別的目標(biāo)和不同目標(biāo)所在的場(chǎng)景組成監(jiān)控視頻追蹤使用場(chǎng)景數(shù)據(jù)集,監(jiān)控視頻追蹤使用場(chǎng)景數(shù)據(jù)集中的每個(gè)場(chǎng)景包含多張連續(xù)圖片構(gòu)成的視頻幀,所述視頻幀中每張圖片均包含需要跟蹤的同一個(gè)目標(biāo);
10、(1-2)對(duì)監(jiān)控視頻追蹤使用場(chǎng)景數(shù)據(jù)集的圖片進(jìn)行圖片標(biāo)注,監(jiān)控視頻追蹤使用場(chǎng)景數(shù)據(jù)集的圖片標(biāo)注信息包括分類(lèi)標(biāo)簽和定位標(biāo)簽,分類(lèi)標(biāo)簽有前景目標(biāo)和背景兩種類(lèi)別信息;定位標(biāo)簽包括目標(biāo)標(biāo)注框坐標(biāo),坐標(biāo)表示為標(biāo)注目標(biāo)框的中心點(diǎn)坐標(biāo)、寬度和高度;
11、(1-3)然后將監(jiān)控視頻追蹤使用場(chǎng)景數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集兩部分,訓(xùn)練集中的圖片目標(biāo)物體不包括測(cè)試集中的圖片目標(biāo)物體。
12、優(yōu)選的,當(dāng)所述步驟2)中的編碼器的輸入是的模板幀圖片和的搜索幀圖片時(shí),所述模板幀圖片和搜索幀圖片經(jīng)過(guò)線性投影再加上能夠?qū)W習(xí)的位置嵌入,能夠?qū)W習(xí)的位置嵌入是表示序列中元素位置信息的一種技術(shù),位置嵌入被用來(lái)保留圖像塊和序列中元素的位置信息,因?yàn)閠ransformer本身并不具備處理位置信息的能力,將兩者組會(huì)的嵌入輸入編碼器中,包括順序連接的輸出向量均為的多個(gè)第一注意力塊;所述動(dòng)態(tài)特征協(xié)同優(yōu)化融合模塊輸入是的特征向量,加入了一個(gè)at的特征序列變量(at就是初始化一個(gè)空白的序列標(biāo)記,然后利用自適應(yīng)最大池化操作學(xué)習(xí)模板和搜索區(qū)域特征標(biāo)記序列得到適合與模板進(jìn)行交互的特征標(biāo)記序列),讓其學(xué)習(xí)適合與模板幀交互的特征,包括順序連接的輸出向量均為的動(dòng)態(tài)特征注意力塊a、動(dòng)態(tài)特征注意力塊b和動(dòng)態(tài)特征注意力塊c。
13、優(yōu)選的,當(dāng)所述步驟(2)所述解碼器的輸入是的模板幀圖片和搜索幀圖片,模板幀和搜索幀經(jīng)過(guò)特征提取后連接的特征向量,包括順序連接的輸出向量均為的第一多頭注意力塊a和第一多頭注意力塊b。
14、優(yōu)選的,所述步驟(3-1)訓(xùn)練跟蹤器階段包括如下步驟:
15、(3-1-1)視頻中的視頻幀圖片經(jīng)過(guò)動(dòng)態(tài)特征協(xié)同優(yōu)化智能追蹤模型后,得出預(yù)測(cè)向量,預(yù)測(cè)向量包括預(yù)測(cè)目標(biāo)物體類(lèi)別、預(yù)測(cè)邊界框中心點(diǎn)坐標(biāo)、寬、高;
16、(3-1-2)把動(dòng)態(tài)特征協(xié)同優(yōu)化智能追蹤模型預(yù)測(cè)的結(jié)果通過(guò)損失函數(shù)進(jìn)行損失計(jì)算,計(jì)算得到的損失值會(huì)通過(guò)反向傳播算法將梯度回傳給監(jiān)控視頻動(dòng)態(tài)特征協(xié)同優(yōu)化智能跟蹤器,進(jìn)行監(jiān)控視頻動(dòng)態(tài)特征協(xié)同優(yōu)化智能跟蹤器參數(shù)的更新,其中,動(dòng)態(tài)特征協(xié)同優(yōu)化智能追蹤模型的損失函數(shù)采用使用交叉熵?fù)p失來(lái)最大化基于前子序列和輸入視頻幀的目標(biāo)序列的對(duì)數(shù)似然,目標(biāo)函數(shù)的公式如公式(2)所示:
17、(2)
18、其中為softmax概率,s為搜索圖像,t為模板,z為目標(biāo)序列,j為序列的位置,l為目標(biāo)序列的長(zhǎng)度,表示用于預(yù)測(cè)當(dāng)前標(biāo)記詞的前一個(gè)子序列。
19、優(yōu)選的,所述(3-2)測(cè)試跟蹤器階段包括如下步驟:在跟蹤器測(cè)試階段,編碼器感知模板圖像和后續(xù)視頻幀中的搜索區(qū)域,解碼器的初始輸入是start序列,(start序列是為模型專(zhuān)門(mén)設(shè)計(jì)的特殊序列,是為了告訴模型目標(biāo)序列開(kāi)始生成了),告訴模型開(kāi)始生成,模型逐個(gè)序列的讀出目標(biāo)序列,對(duì)于每個(gè)序列,模型根據(jù)最大似然選擇合適的序列,最大似然選擇如公式(3)所示:
20、(3)
21、其中為softmax概率,s為搜索圖像,t為模板,z為目標(biāo)序列,j為序列的位置,l為目標(biāo)序列的長(zhǎng)度,表示用于預(yù)測(cè)當(dāng)前標(biāo)記詞的前一個(gè)子序列。
22、優(yōu)選的,步驟(2)順序連接的輸出向量均為的多個(gè)第一注意力塊均設(shè)有注意力層,線性層和歸一化層,注意力操作如下如公式(4)所示:(在每個(gè)特征標(biāo)記序列進(jìn)行交互的時(shí)候,注意力操作就是第一注意力層的自注意力層,也就是如下公式)
23、(4)
24、其中q表示當(dāng)前需要關(guān)注的位置或目標(biāo),在此表示搜索區(qū)域中需要被匹配的位置,來(lái)源于搜索區(qū)域特征的線性變換,編碼搜索區(qū)域中每個(gè)位置的特征,用于與模板特征匹配。k表示被查詢(xún)的候選信息,在此表示目標(biāo)模板的特征(初始幀中的目標(biāo)信息),作為被匹配的參考。v包含實(shí)際用于加權(quán)聚合的信息,在此攜帶目標(biāo)模板的詳細(xì)特征信息,用于加權(quán)聚合生成最終的跟蹤結(jié)果。k和v都來(lái)源于模板特征的線性變換,保留目標(biāo)的語(yǔ)義和空間信息。t代表矩陣的轉(zhuǎn)置,為了方便計(jì)算;dk表示k向量的維度。
25、計(jì)算搜索區(qū)域的query與模板的key之間的相似度,得到注意力權(quán)重,權(quán)重高的位置表示搜索區(qū)域中的某位置與模板目標(biāo)高度相關(guān)。最后用注意力權(quán)重對(duì)模板的value進(jìn)行加權(quán)求和,生成最終的跟蹤響應(yīng)圖。
26、優(yōu)選的,步驟(2)中所述的多頭注意力塊1和多頭注意力塊2,均設(shè)有掩碼多頭注意力層,多頭注意力層,前饋神經(jīng)網(wǎng)絡(luò)層和歸一化層;其中掩碼多頭注意力層利用因果掩碼來(lái)確保每個(gè)序列元素的輸出只依賴(lài)于它前面的序列元素,多頭注意力層輸入向量,包含個(gè)權(quán)重矩陣,其中,最終輸出結(jié)果如公式組(5)所示:
27、(5)
28、其中;其中;headi表示第i個(gè)注意力頭對(duì)于的子空間,wi是為了得到對(duì)應(yīng)的q、k、v的投影矩陣,w是輸出矩陣,concat()是將多個(gè)頭的輸出在特征維度拼接,mutihead()函數(shù)是完成多頭的投影、注意力計(jì)算和拼接得到最終的結(jié)果。
29、優(yōu)選的,步驟(2)中所述的動(dòng)態(tài)特征注意力塊a,動(dòng)態(tài)特征注意力塊b和動(dòng)態(tài)特征注意力塊c均設(shè)有自適應(yīng)注意力層,前饋神經(jīng)網(wǎng)絡(luò)層和歸一化層。
30、本發(fā)明具有如下有益效果:本發(fā)明利用計(jì)算機(jī)視覺(jué)分析技術(shù),配合現(xiàn)實(shí)中的監(jiān)控?cái)z像頭,可以動(dòng)態(tài)特征協(xié)同優(yōu)化地分析視頻流畫(huà)面,動(dòng)態(tài)協(xié)同的識(shí)別跟蹤目標(biāo)位置,緩解了監(jiān)控視頻中識(shí)別跟蹤目標(biāo)相似物存在和目標(biāo)遮擋的調(diào)整,使得監(jiān)控視頻動(dòng)態(tài)特征協(xié)同優(yōu)化智能追蹤模型能夠自適應(yīng)實(shí)際不同場(chǎng)景下的目標(biāo)位置情況,提高跟蹤的準(zhǔn)確率。本發(fā)明所提供的方法能更加準(zhǔn)確穩(wěn)定的識(shí)別跟蹤目標(biāo),從而為監(jiān)控視頻追蹤任務(wù)提供了更好的基礎(chǔ)支持。