基于近端策略优化算法和Mask-TIT网络的多功能雷达干扰决策方法

root 提交于 周四, 12/12/2024 - 19:06
为应对愈加智能的多功能雷达给对抗方带来的挑战,本文提出一种基于近端策略优化(Proximal policy optimization,PPO)算法和Mask-TIT(Mask-Transformer in Transformer)网络的干扰决策方法。首先,从一种现实场景出发,将干扰机与雷达的对抗场景建模为部分可观察马尔可夫决策过程(Partially observable Markov decision process,POMDP),根据雷达工作原理设计了新的状态转移函数和奖励函数,并根据多功能雷达层级模型设计了观测空间。其次,利用Transformer对序列数据的表征能力和雷达干扰样式的特点设计了一种Mask-TIT网络结构,用于构建更强大的Actor-Critic网络架构。最后,使用近端策略优化算法进行优化学习。实验结果表明,该算法较现有方法收敛所需交互数据平均减少25.6%,并且收敛后的方差显著降低。

相关内容

发布日期 08/04/2020 - 01:35
发布日期 08/04/2020 - 01:35
发布日期 10/17/2023 - 23:16
发布日期 02/18/2025 - 20:47
发布日期 01/18/2025 - 20:37
发布日期 01/31/2024 - 13:01
发布日期 02/29/2024 - 16:35