来源: https://www.nature.com/articles/s41586-023-06419-4
Champion-level drone racing using deep reinforcement learning - Nature
摘要
第一人称视角 (FPV) 无人机竞速是一项电视转播的运动,专业选手驾驶高速飞机穿越 3D 赛道。每位飞行员通过无人机的视角通过机载摄像头传输的视频观察周围环境。要达到专业飞行员的自主 无人机水平是一项挑战,因为机器人需要在极限范围内飞行,同时仅通过机载传感器 [^1] 估计其在赛道上的速度和位置。这里我们介绍 Swift,这是一个可以与人类世界冠军水平的实体车辆竞赛的自主系统。该系统将模拟中的深度强化学习 (RL) 与现实世界中收集的数据相结合。Swift 在现实世界的正面交锋中与三位人类冠军展开竞争,其中包括两个国际联赛的世界冠军。Swift 赢得了与每位人类冠军的几场比赛,并创下了最快的比赛时间记录。这项工作代表了移动机器人和机器智能的一个里程碑 [^2] ,这可能会启发在其他物理系统中部署基于混合学习的解决方案。
主要的
深度强化学习 [^3] 推动了人工智能的一些最新进展。使用深度强化学习训练的策略在复杂的竞技游戏中表现优于人类,包括雅达利 4、5、6 、 围棋 5、7、8、9 、 国际 象棋 5、9 、 星际 争霸 [^10] 、 Dota 2 ( 参考 文献 [^11] ) 和 Gran Turismo 12、13 。这些令人印象深刻 的机器智能能力展示主要局限于模拟和 棋盘 游戏环境,这些环境支持在精确复制测试条件中进行策略搜索。 克服这一限制并在体育竞赛中展现冠军级表现是自主移动机器人和人工智能领域长期 存在 的 问题 14、15、16 。
FPV 无人机竞赛是一项电视转播的运动,其中训练有素的人类飞行员通过高速灵活的机动将飞行器推向物理极限(图 1a )。FPV 竞赛中使用的飞行器是四轴飞行器,它们是有史以来最灵活的机器之一(图 1b )。在比赛期间,飞行器施加的力量超过其自身重量的五倍或更多,速度超过 100 km h -1 ,加速度是重力的几倍,即使在密闭空间内也是如此。每架飞行器都由一名人类飞行员远程控制,飞行员戴着耳机,耳机上显示着机载摄像头的视频流,营造出身临其境的“第一人称视角”体验(图 1c )。

图 1:无人机竞赛。
创建达到人类飞行员表现的自主系统的尝试可以追溯到 2016 年的第一届自主无人机竞赛(参考文献 [^17] ) 。随后出现了一系列创新,包括使用深度网络识别下一个门位置 18、19、20 、 将 竞赛 策略 从模拟转移到现实 21、22 以及 考虑感知中的不确定性 23、24。2019 年 AlphaPilot 自主无人机竞赛展示了该领域的一些最佳研究 25。 然而,前两支队伍仍然花费了几乎两倍于专业人类飞行员完成赛道的时间 26、27