预训练和自训练（预训练技术）

论文标题：

Lifelike Agility and Play in Quadrupedal Robots using Reinforcement Learning and Generative Pre-trained Models

论文作者：

Lei Han, Qingxu Zhu, Jiapeng Sheng, et al.

编译：巴巴塔

审核：Los

导读：

腾讯RoboticsX实验室的新研究，它通过将前沿的预训练AI模型和强化学习技术应用到机器人控制领域，让机器狗MAX的灵活性和自主决策能力得到大幅提升。通过引入预训练模型和强化学习技术，机器狗可以分阶段进行学习，并有效的将不同阶段的技能、知识积累并存储下来，让机器狗在解决新的复杂任务时，不必重新学习，而是可以复用已经学会的姿态、环境感知、策略规划多个层面的知识，进行「举一反三」，灵活应对复杂环境。 ©️【深蓝AI】编译

动物在应对环境时能够展现出迅速而敏捷的动作和精确的反应，理解和模仿动物行为能够帮助人们进行机器人设计和控制。足式机器人作为一种常见的仿生机器人，几十年来一直是机器人研究的一个重要领域。

通常，当前更多将学习的方法应用于足式机器人控制。基于学习的方法是完全自动化的，控制器可以从机器人传感器读数到电机控制信号以端到端的方式进行优化。例如，基于仿真的深度强化学习（RL）已被应用于学习在各种地形上行走的腿部运动。这些方法通常采用深度强化学习算法在仿真中训练运动任务，然后将训练好的控制器应用于现实中的足式机器人。此外也有研究致力于缩小仿真与现实环境之间的差距。现在一些研究利用模仿学习框架跟踪从现实动物收集的运动数据，然后将训练好的控制器应用于真实的足式机器人，结果表明使用模仿学习，训练的控制器能够驱动足式机器人表现出类似于动物的运动，以实现行走和奔跑等一般运动技能。

本文作者从这些研究得到启发。例如，在角色动画中使用隐变量模型将运动数据压缩成可重用的先验。这些方法假设从运动数据中学习的潜在嵌入具有连续的高斯空间，然后导航该空间以实现用户指定的任务。以及其他研究一种将知识先验引入强化学习问题的观点，并选择性地推广学习行为的某些方面。还有一些研究工作，采用分层架构，能够通过逐层叠加多级技能来解决下游任务。最后，由于大型深度生成模型在理解图像和语言方面有不错的效果，作者尝试将生成式预训练模型融入机器人控制中。

本文主要贡献：

●分层动作学习框架：提出了一种分层动作学习框架，用于四足机器人，该框架能够有效地学习和生成类似动物的生动动作和策略性行为。

●生成式预训练模型应用在机器人控制中：第一次将基于生成式预训练模型的方法应用于四足机器人的动作控制，通过向量量化的原始动作控制器（VQ-PMC），有效地从动物运动数据中提取并生成控制信号。

●环境适应性和策略性的结合：在环境层次，研究方法能够适应多种复杂环境，如梯子、狭窄通道、栏杆和方块，并在策略层次上通过多智能体游戏学习高级策略性动作。

●简化奖励函数设计：在强化学习中采用简化的奖励函数设计，减少了对复杂奖励工程的依赖，这有助于简化训练过程并提高学习效率。

▲图1｜论文方法框架概览©️【深蓝AI】编译

本文方法框架概述如图1所示，该方法由三个阶段的强化学习组成，每个学习阶段的完整端到端控制器分别称为原始运动控制器（PMC）、环境-原始运动控制器（EPMC）和策略-环境-原始运动控制器（SEPMC），并且每个阶段侧重于在不同的任务和感知层面上提取知识。具体来说，第一阶段通过使用离散潜在嵌入模仿动物运动，训练基元层次PMC网络；然后冻结训练好的PMC网络用于训练多个环境层网络（如：平坦地形上行走、爬行以及跨越障碍物、块和楼梯），这些环境层网络采用附加的外部感知和关于方向和速度的指令，以输出潜在嵌入来驱动原始层网络。这些环境层网络随后通过多专家蒸馏压缩成一个统一的环境层网络。在最后阶段，重用预训练的PMC网络和EPMC网络，训练一个完整的SEPMC，以解决设计的多智能体追逐标签游戏。SEPMC网络采用附加的任务特定信息，以输出关于方向和速度的指令给环境层网络。所有阶段训练在PyBullet仿真中使用强化学习进行，并利用分布式多智能体强化学习架构TLeague下的PPO算法。

■3.1 Primitive-Level Training

PMC通过模仿收集到的动物运动片段进行训练。

◆Motion Data Acquisition and Retargeting： 运动数据是通过动作捕捉系统收集的。具体来说，利用经良好训练的拉布拉多犬在指导下执行各种指令，捕捉其各种步态（如：walking，running，jumping and sitting）和腿部轨迹的运动序列，重复多次以确保数据的多样性。另外，还捕捉记录按照不同运动轨迹形式（如：straight，square and circle）的运动数据。最后，作者又收集了涉及楼梯的运动数据并在仿真环境构建一组大小完全相同的模拟楼梯，以精确匹配真实世界运动收集中的楼梯。由于动物的形态与机器人的形态不同，这里使用逆向运动学技术将动物的原始运动重新定位到四足机器人上。

◆Problem Setup： 强化学习解决的是一个在线决策问题，其中系统的动态由马尔可夫决策过程（MDP）描述。在时间步，代理根据状态执行动作，然后从环境中获得奖励和下一个状态。设为状态转移概率。强化学习的目标是学习一个策略，以最大化轨迹上的期望累积奖励：

br />

span data-formula="\tau" style="font-size: 15px;letter-spacing: 0em;text-indent: 0em;font-family: mp-quote, -apple-system-font, BlinkMacSystemFont, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;text-align: justify;cursor: pointer;">

span data-formula="p(s_0)" style="font-size: 15px;letter-spacing: 0em;text-indent: 0em;font-family: mp-quote, -apple-system-font, BlinkMacSystemFont, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;text-align: justify;cursor: pointer;">

span data-formula="\gamma \in [0, 1]" style="font-size: 15px;letter-spacing: 0em;text-indent: 0em;font-family: mp-quote, -apple-system-font, BlinkMacSystemFont, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;text-align: justify;cursor: pointer;">

/embed>

←左右滑动查看完整公式→