论文理解 RMA:Rapid Motor Adaptation for Legged Robots

论文：RMA:Rapid Motor Adaptation for Legged Robots
论文阅读时长：3h
笔记整理时长：1h

论文主要针对强化学习从Simulator向现实迁移时，可能产生的问题提出了一种解决方案。

RMA：Rapid Motor Adaptation。机器狗在走路时对环境变化的快速适应（防摔）

模拟器与现实的差异性
- 现实机器人模型与模拟器中模型的差异
- 现实地形建模与模拟器中模型的差异
- 物理模拟器无法准确捕捉真实世界的各类参数（比如可触形变等）
迁移后fine-tuning的困难
- RMA本身是一个短暂的过程，很难进行多次实验以确定不同action背后的cumulated reward
- 现实设备的昂贵性，不能承受频繁的失败

RMA要求模型能有低于秒级的灵敏度，以及一旦部署在机器上就能直接适应的模型（不做微调），模型结构如下：

$e_t$ ：模拟器环境的各类超参，如湿度、凹凸性、弹性形变等物理量
$x_t$ ：$t$ 时刻的 state
$z_t$ ：环境的特征向量，由Encoder $\mu$ 给出

训练过程：

phase1：直接用模拟器生成 $z$，作为policy网络的输入
phase2：使用$s$、$a$、$z$的历史数据去训练适应模型 $\phi$
deployment：使用 $\phi$ 和 policy network直接跑

The key insight is that when we command a certain movement of the robot joints, the actual movement differs from that in a way that depends on the extrinsics.

最关键的一个观察是，当机器人关节进行某个运动时，实际位置的变化不仅取决于指令，还与环境有关。可以依赖此特点去反推环境。