2026热门方向!基于强化学习的多无人机移动边缘计算与路径规划研究(完整代码数据)
目录场景建模算法设计结果展示完整代码获取最近后台有不少小伙伴问我无人机路径规划研究已经做烂了A*、蚁群、粒子群等能用的算法都被前人写过了,毕业设计、小论文还能怎么搞出新意?实际上无人机在飞行过程中也能为地面的终端用户提供算力卸载、数据处理、通信中继等服务。考虑这些因素之后可以把问题建模成多无人机既要避障、又要服务并走最短路径的复杂场景。同时传统算法难以解决这个问题而强化学习又恰好适合解决这种复杂问题。因此今天给大家带来一期基于强化学习的多无人机移动边缘计算与路径规划研究代码把路径规划、边缘计算、多机协同、强化学习四个热门方向结合到一个框架中。可以说非常非常好出成果。您只需做的工作:一键运行main文件即可出图代码注释清晰非常适合新手小白场景建模(1)障碍物建模。地图上分布了10个静态障碍物,每个障碍物用一个高斯函数描述其风险影响范围。对每个网格点 (x,y),其风险值由所有障碍物的高斯衰减叠加得到其中 d 为该点到障碍物 i 的距离,σᵢ 为障碍物 i 的风险半径。这样得到一张连续的风险地图,值越大代表越危险。特别地,其他无人机本身也作为动态障碍加入到风险地图中这样多机之间会自动避让。(2)终端用户(TU)建模。地图上分布了若干个终端用户每个TU有自己的位置 (x,y) 和服务需求量 d。我们采用Sigmoid函数对需求做非线性变换体现边际收益递减:需求大的TU被服务一点点带来的提升更明显能够比简单的线性建模更贴合真实场景。(3)无人机感知建模。每架无人机只能感知观察半径(默认0.2)内的障碍物和其他无人机,信息是局部的、动态的。一旦在观察半径内发现新障碍,触发重规划机制,这一点非常符合真实无人机的传感器约束。算法设计算法主要把多目标无人机路径规划转化为带权重的最短路径问题再用强化学习的价值迭代去求解。每一步的代价函数由三部分组成:第一项是路径上的累积风险积分风险系数K越大,无人机越倾向于绕开危险区域第二项是TU服务需求的倒数需求系数M越大无人机越愿意绕路去服务高需求用户第三项是基础的距离项。路径规划部分采用强化学习的价值迭代思想,流程分为两个阶段:第一阶段:训练G矩阵(值函数学习)。通过反复随机采样状态点,用类Bellman方程更新一个全局代价矩阵G。重复多次后,G矩阵中每个格子的值就近似收敛到该点到目标的最小总代价,本质就是Q-learning的离线训练。第二阶段:贪心提取路径。从初始位置出发,每一步在邻域内选择 G cost_add 最小的格子作为下一节点,直到到达目标。结果展示我们设置风险系数K20,服务需求系数M1,部署3架无人机分别从地图底部不同起点出发,目标点统一设置为右上角(0.95,0.95),给大家展示一下结果~首先是主场景轨迹图三架无人机中途绕开障碍物的等高线区域,经过红色圆圈标记的TU时为其提供边缘计算服务最终汇聚到右上角的目标点整个过程在程序里是动态的障碍物风险分布热力图颜色越红代表风险越高各TU服务需求随时间变化曲线每条曲线对应一个TU曲线下降越早、越陡代表该TU被服务得越及时。各无人机性能对比柱状图:最后,命令行窗口也会清楚地显示三个核心性能指标:更重要的是代码还提供了批量参数扫描的入口你只需要设置好K和M的参数列表程序会自动跑完所有组合并输出一张Excel表格记录所有结果方便你直接放到自己的论文里以上所有图片均可一键运行main生成无需配置环境并且注释非常清晰完整代码获取想要获取以上完整代码的可以复制下方链接到浏览器https://mbd.pub/o/bread/YZWcmptqZg