Skip to main content

在未知森林、城市废墟甚至障碍密布的室内空间,一群无人机像飞鸟般快速穿梭,不依赖地图、不靠通信、也无需昂贵设备。这一设想,如今成为现实!

上海交通大学研究团队提出了一种融合无人机物理建模与深度学习的端到端方法,该研究首次将可微分物理训练的策略成功部署到现实机器人中,实现了 一套真正意义上的「轻量、可部署、可协同」无人机集群端到端自主导航方案 ,并在鲁棒性、机动性上大幅领先现有的方案。

该成果已于《 Nature Machine Intelligence 》在线发表,其中张宇昂硕士、胡瑜、宋运龙博士为共同第一作者,邹丹平与林巍峣教授为通信作者。 image1.png

研究背景

近年来,空中机器人被广泛应用于搜索救援、电力巡检和物资投递等复杂动态环境中,对飞行器的敏捷性和自主性提出了更高要求。传统方法通常采用基于地图的导航策略,将感知、规划与控制模块分离处理,虽取得一定成果,但其级联结构易导致误差累积和系统延迟,难以满足高速动态场景及多机协作的需求。而基于学习的方法,如强化学习和模仿学习,在单机飞行中表现出色,但在多机系统中面临训练成本高、专家策略设计困难等问题,限制了其在群体智能中的应用。因此,如何高效训练具备鲁棒性与扩展性的视觉驱动多机协同策略,仍是亟待解决的关键问题。

创新成果

针对这一问题,团队提出了一种端到端的方法,通过可微分仿真将深度学习与基于第一性原理的物理建模相结合使用简化的质点物理模型,通过在机器人仿真中反向传播损失梯度,直接优化神经网络控制策略。实验证明,在训练端,结合物理模型和数据驱动的训练方法只需现有强化学习框架的10%的样本即可实现相同的表现。在部署端,该方法在多智能体和单智能体任务中均表现出色。在多智能体场景中,系统展现出自组织行为,能够在无需通信或集中规划的情况下实现自主协同。在单智能体任务中,系统在未知复杂环境中的导航成功率高达90%,其鲁棒性显著优于现有最先进的解决方案。上述系统无需状态估计模块即可运行,并能够适应动态障碍物。在真实森林环境中,其导航速度最高可达20米/秒,是此前基于模仿学习方案的两倍。值得注意的是,所有这些功能都部署在一个价格仅为150元低成本计算机上,其成本不到现有配备GPU系统的5%。

640.gif

在单机场景中,将网络模型部署在无人机上后在不同的真实环境中进行测试,包括树林、城市公园,以及含有静态和动态障碍的室内场景。该网络模型在未知复杂环境中的导航成功率高达90%,相比现有最优方法展现出更强的鲁棒性。

在真实树林环境中,无人机飞行速度高达20米/秒,是基于模仿学习的现有方案速度的两倍。所有测试环境均实现zero-shot零样本迁移。该系统无需GPS或者VIO提供定位信息即可运行,并能适应动态障碍物。

640 (1).gif 图 1 多机飞行

640 (2).gif

多机协同场景中,将网络模型部署到6架无人机上执行同向穿越复杂障碍和互换位置任务。该策略在同向穿越门洞、动态障碍物和复杂静态障碍物的场景中展示了极高的鲁棒性。在多机穿越门洞互换位置的实验中,展现出了无需通信或集中规划的自组织行为。

640 (3).gif

640 (5).gif

思路关键

嵌入 物理原理 ,无人机「自己学会飞」

端到端可微仿真训练:策略网络直接控制无人机运动,通过物理模拟器实现反向传播。

轻量设计:整套端到端网络参数仅 2MB ,可部署在 150 元的计算平台(不到 GPU 方案的 5% 成本)。

高效训练:在 RTX 4090 显卡上仅需 2 小时即可收敛。

图 4 低成本算力平台

训练总体框架如下图所示,通过与环境交互来训练策略网络,在每一个时间步,策略网络接收深度图像作为输入,并通过策略网络输出控制指令(推力加速度和偏航角)。

可微物理模拟器根据控制指令模拟无人机的质点运动,进行状态更新:

在新的状态下可以渲染新的深度图像并计算代价函数。

代价函数由多个子项组成,包括速度跟踪项、避障项、平滑项等。在轨迹采集完毕后,代价函数可通过链式法则(图 1 中红色箭头)计算梯度实现反向传播,从而直接优化策略参数。

「简约即美」的训练诀窍

  • 简单模型: 使用质点动力学替代复杂飞行器建模。
  • 简单图像: 低分辨率渲染 + 显式几何建模,提升仿真效率。
  • 简单网络: 三层卷积 + GRU 时序模块,小巧高效。

此外,训练过程中通过引入局部梯度衰减机制,有效解决训练中梯度爆炸问题,让无人机“专注于眼前”的机动策略自然涌现。

方法对比

强化学习、模仿学习,还是物理驱动?

当前具身智能的主流训练范式主要分为两类:强化学习( Reinforcement Learning, RL )与模仿学习( Imitation Learning, IL )。然而,这两类方法在效率与可扩展性方面均存在明显瓶颈:

强化学习(如 PPO ) 多采用 model-free 策略,完全不考虑环境或控制对象的物理结构,其策略优化主要依赖基于采样的策略梯度估计,这不仅导致数据利用率极低,还严重影响训练的收敛速度与稳定性。

模仿学习( 如 Agile[Antonio et al.(2021)]) 则依赖大量高质量的专家演示作为监督信号。获取这类数据通常代价昂贵,且难以覆盖所有可能场景,从而影响模型的泛化能力及扩展性。

相比之下,该研究提出的基于可微分物理模型的训练框架,有效融合了物理先验与端到端学习的优势。

通过将飞行器建模为简单的质点系统,并嵌入可微分仿真过程,能够直接对策略网络的参数进行梯度反向传播,从而实现高效、稳定且物理一致的训练过程。

研究在实验中系统对比了三种方法( PPO 、 Agile 、本研究方法),主要结论如下:

训练效率: 在相同硬件平台上,本方法在约 2 小时内即可实现收敛,训练时

远低于 PPO 与 Agile 所需的训练周期。、 数据利用率: 仅使用约 10% 的训练数据量,本方法在策略性能上就超越了使用全量数据的 PPO+GRU 方案。

收敛性能: 在训练过程中,本方法展现出更低的方差与更快的性能提升,收敛曲线显著优于两类主流方法。

部署效果: 在真实或近似真实的避障任务中,本方法的最终避障成功率显著高于 PPO 与 Agile ,表现出更强的鲁棒性与泛化能力。

这一对比结果不仅验证了“物理驱动”的有效性,也表明:当我们为智能体提供正确训练方法时,强智能不一定需要海量数据与昂贵试错。

图 5 该 研究方法以 10% 的训练数据量即超过现有方法 (PPO+GRU) ,收敛性能远高于现有方法

图 6 模型部署避障成功率对比

雾里看花

可解释性探究

尽管端到端神经网络在自主飞行避障任务中表现出强大性能,其决策过程的不透明性仍是实际部署中的一大障碍。

为此,研究人员引入 Grad-CAM 激活图工具,对策略网络在飞行过程中的感知注意力进行了可视化分析。

下图展示了不同飞行状态下输入的深度图(上排)及其对应的激活图(下排)。

图 7 通过观察激活图,激活区域与最危险障碍强相关

可以观察到,网络的高响应区域高度集中在飞行路径中最可能发生碰撞的障碍物附近,例如树干、柱体边缘。这表明,尽管训练过程中没有显式监督这些 “ 危险区域 ” ,网络已自发学会将注意力集中在潜在风险最大的区域上。这一结果传递出两个重要信息:

网络不仅在行为层面实现了成功避障,其感知策略本身也具有一定的结构合理性与物理解释性;而可解释性工具也有助于我们进一步理解端到端策略背后的「隐性规则」。

更多信息

  1. 论文链接: https://www.nature.com/articles/s42256-025-01048-0
  2. 项目地址:https://henryhuyu.github.io/DiffPhysDrone_Web/
  3. 代码仓库:https://github.com/HenryHuYu/DiffPhysDrone
  4. 交大智慧: https://news.sjtu.edu.cn/jdzh/20250711/212756.html
  5. 新智元:https://mp.weixin.qq.com/s/V6VdRVuEt_cvalSLYV46eA