- 9 次围观
为应对愈加智能的多功能雷达给对抗方带来的挑战,本文提出一种基于近端策略优化(Proximal policy optimization,PPO)算法和Mask-TIT(Mask-Transformer in Transformer)网络的干扰决策方法。首先,从一种现实场景出发,将干扰机与雷达的对抗场景建模为部分可观察马尔可夫决策过程(Partially observable Markov decision process,POMDP),根据雷达工作原理设计了新的状态转移函数和奖励函数,并根据多功能雷达层级模型设计了观测空间。其次,利用Transformer对序列数据的表征能力和雷达干扰样式的特点设计了一种Mask-TIT网络结构,用于构建更强大的Actor-Critic网络架构。最后,使用近端策略优化算法进行优化学习。实验结果表明,该算法较现有方法收敛所需交互数据平均减少25.6%,并且收敛后的方差显著降低。
来源出处
基于近端策略优化算法和Mask-TIT网络的多功能雷达干扰决策方法
http://sjcj.nuaa.edu.cn/sjcjycl/article/abstract/202406006