本發(fā)明涉及航天器軌道動力學與智能博弈控制交叉領域,尤其涉及基于凸優(yōu)化理論的航天器橢圓軌道實時閉環(huán)追逃博弈方法。
背景技術:
1、在現(xiàn)有技術中,航天器追逃博弈問題常采用基于極大值原理的鞍點均衡求解方法,其核心是通過構建哈密頓函數(shù)并求解伴隨微分方程的邊值問題,最終推導出博弈雙方的最優(yōu)控制策略。此類方法依賴于對軌道動力學模型的高精度數(shù)學表達,需在連續(xù)時間域內(nèi)對狀態(tài)方程、協(xié)態(tài)方程進行聯(lián)合迭代求解。然而,該技術方案存在以下固有缺陷:
2、(1)在橢圓軌道非線性動力學場景下,狀態(tài)方程與協(xié)態(tài)方程的時變特性導致邊值問題求解難度增加,計算復雜度超過航天器星載計算機的實時處理能力;
3、(2)現(xiàn)有改進方案中采用的啟發(fā)式搜索等數(shù)值優(yōu)化方法,雖能搜索得到邊值問題的解,但面臨策略收斂性差、初值猜測敏感的問題,尤其在終端時間自由的多約束條件下易陷入局部最優(yōu)解;
4、(3)現(xiàn)有方法缺乏動態(tài)環(huán)境感知與閉環(huán)策略調整機制,求解過程依賴離線預計算模式,難以應對空間對抗場景中目標機動策略突變、軌道攝動干擾等實時性要求。
5、上述缺陷導致傳統(tǒng)博弈求解方法在軌應用時存在分鐘級以上的計算延遲,且策略穩(wěn)定性無法滿足航天器姿軌控系統(tǒng)毫秒級響應的硬性需求。
技術實現(xiàn)思路
1、本發(fā)明提出了航天器橢圓軌道實時閉環(huán)追逃博弈方法及裝置,解決了傳統(tǒng)軌道博弈控制方法在均衡求解困難、策略收斂性差、難以在軌應用的問題。
2、本發(fā)明所述的航天器橢圓軌道實時閉環(huán)追逃博弈方法,所述方法包括以下步驟:
3、步驟s1:給定初始條件xp(θ0),xe(θ0)和控制約束
4、其中:θ0表示航天器初始真近點角;xp(θ0)表示追蹤航天器初始狀態(tài);xe(θ0)表示逃跑航天器初始狀態(tài);表示追蹤航天器可行控制輸入集合;表示逃跑航天器可行控制輸入集合;
5、步驟s2:迭代獲得閉環(huán)控制策略;其中,在第s階段的迭代過程包括如下步驟:
6、步驟s2.1:在θs對應時刻輸入追逃博弈的航天器雙方的完全狀態(tài)(xp(s),xe(s)),其中θs為s階段對應的真近點角度;
7、其中:xp(s)表示追蹤航天器在s階段的狀態(tài);xe(s)表示逃跑航天器在s階段的狀態(tài);
8、步驟s2.2:求解等價的折扣單邊最小時間轉移問題,獲得的開環(huán)最優(yōu)策略對和
9、其中:表示追蹤航天器最優(yōu)控制策略;表示逃跑航天器最優(yōu)控制策略;表示s階段求解博弈問題對應的終端真近點角;
10、步驟s2.3:按照最優(yōu)控制策略遞推遞推未知控制ue下逃跑航天器xe(θs),更新目標點
11、其中:表示s階段按照最優(yōu)控制策略追蹤航天器的狀態(tài);xe(θs)表示s階段按照最優(yōu)控制策略逃跑航天器的狀態(tài);表示求解博弈問題終端真近點角對應的相對狀態(tài)目標點;
12、步驟s2.3:判斷是否滿足||φ||≤ε:
13、若是,則迭代結束,獲得最終的閉環(huán)控制博弈策略,實現(xiàn)對目標的攔截,博弈結束;
14、否則,獲取θs+1,繼續(xù)第s+1階段的迭代:
15、θs+1=θs+δθ;
16、其中:φ表示終端約束條件;ε表示誤差閾值結束條件;δθ表示相鄰兩階段之間的真近點角度之差。
17、進一步的,提供一個優(yōu)選實施方式,所述等價的折扣單邊最小時間轉移問題為:
18、依據(jù)追蹤航天器和逃跑航天器的控制輸入和當前狀態(tài),求解最小時間轉移問題:
19、
20、xpe(θs)=xp(θs)-xe(θs)
21、xpe(θf)=0
22、其中,xpe為追蹤航天器和逃跑航天器相對狀態(tài)差;upe為等效折扣控制輸入;upe為等效控制輸入集合的最大值;θf為最優(yōu)真近點角;xp(θs)為s階段追蹤航天器初始狀態(tài);xe(θs)為s階段逃跑航天器初始狀態(tài);xpe(θf)為相對運動狀態(tài)差終端狀態(tài)約束;xpe(θs)為相對運動狀態(tài)差初始狀態(tài)約束。
23、進一步的,提供一個優(yōu)選實施方式,所述步驟s2.2為:
24、重復求解不同給定終端時刻θf求解可行性問題:
25、
26、xpe(θs)=xp(θs)-xe(θs)
27、其中,φ(θf)給定真近點角對應時刻的終端誤差;upe等效折扣控制輸入;為的的邊界。
28、本發(fā)明還提出了航天器橢圓軌道實時閉環(huán)追逃博弈裝置,所述裝置包括以下模塊:
29、模塊s1:給定初始條件xp(θ0),xe(θ0)和控制約束
30、其中:θ0表示航天器初始真近點角;xp(θ0)表示追蹤航天器初始狀態(tài);xe(θ0)表示逃跑航天器初始狀態(tài);表示追蹤航天器可行控制輸入集合;表示逃跑航天器可行控制輸入集合;
31、模塊s2:迭代獲得閉環(huán)控制策略;其中,在第s階段的迭代過程包括如下子模塊:
32、子模塊s2.1:在θs對應時刻輸入追逃博弈的航天器雙方的完全狀態(tài)(xp(s),xe(s)),其中θs為s階段對應的真近點角度;
33、其中:xp(s)表示追蹤航天器在s階段的狀態(tài);xe(s)表示逃跑航天器在s階段的狀態(tài);
34、子模塊s2.2:求解等價的折扣單邊最小時間轉移問題,獲得的開環(huán)最優(yōu)策略對和
35、其中:表示追蹤航天器最優(yōu)控制策略;表示逃跑航天器最優(yōu)控制策略;表示s階段求解博弈問題對應的終端真近點角;
36、子模塊s2.3:按照最優(yōu)控制策略遞推遞推未知控制ue下逃跑航天器xe(θs),更新目標點
37、其中:表示s階段按照最優(yōu)控制策略追蹤航天器的狀態(tài);xe(θs)表示s階段按照最優(yōu)控制策略逃跑航天器的狀態(tài);表示求解博弈問題終端真近點角對應的相對狀態(tài)目標點;
38、子模塊s2.3:判斷是否滿足||φ||≤ε:
39、若是,則迭代結束,獲得最終的閉環(huán)控制博弈策略,實現(xiàn)對目標的攔截,博弈結束;
40、否則,獲取θs+1,繼續(xù)第s+1階段的迭代:
41、θs+1=θs+δθ;
42、其中:φ表示終端約束條件;ε表示誤差閾值結束條件;δθ表示相鄰兩階段之間的真近點角度之差。
43、本發(fā)明還提出了一種計算機設備,包括:處理器和存儲器,所述存儲器用于存儲所述處理器的可執(zhí)行指令,所述處理器配置為經(jīng)由執(zhí)行所述可執(zhí)行指令來執(zhí)行上述任意一項所述的航天器橢圓軌道實時閉環(huán)追逃博弈。
44、本發(fā)明還提出了一種計算機存儲介質,所述存儲介質中存儲有計算機程序,所述計算機程序運行時,執(zhí)行上述任意一項所述的航天器橢圓軌道實時閉環(huán)追逃博弈。
45、本發(fā)明還提出了一種計算機程序產(chǎn)品,包括計算機程序/指令,該計算機程序/指令被處理器執(zhí)行時實現(xiàn)上述任意一項所述的航天器橢圓軌道實時閉環(huán)追逃博弈的步驟。
46、本發(fā)明有以下有益效果:
47、1.本發(fā)明所述的航天器橢圓軌道實時閉環(huán)追逃博弈方法,不需要手動設置參數(shù),能夠實現(xiàn)閉環(huán)最優(yōu)策略的求解,使得基于博弈論指導優(yōu)化的閉環(huán)策略變得可行,這對于實際航天器在軌應用至關重要。
48、2.本發(fā)明所述的航天器橢圓軌道實時閉環(huán)追逃博弈方法,不需要超參數(shù)調整,其輸出是確定性的,保證收斂,使其適用于機載應用,特別是在資源受限的星載嵌入式平臺上。
49、3.本發(fā)明所述的航天器橢圓軌道實時閉環(huán)追逃博弈方法,直接用于航天器在橢圓軌道環(huán)境中的自主追逃對抗任務,包括空間目標攔截、非合作目標規(guī)避、多航天器協(xié)同圍捕等場景;其應用領域涵蓋航天攻防對抗、在軌服務安全控制、空間碎片主動規(guī)避等方向,通過高速策略求解與博弈策略實時迭代,解決傳統(tǒng)軌道博弈控制方法在均衡求解困難、策略收斂性差、難以在軌應用的問題,為復雜空間對抗任務提供毫秒級響應的自主決策能力。。
50、本發(fā)明所述的航天器橢圓軌道實時閉環(huán)追逃博弈方法及裝置,適用于航天器橢圓軌道的實時追逃博弈。