0%

论文理解 RMA:Rapid Motor Adaptation for Legged Robots

论文主要针对强化学习从Simulator向现实迁移时,可能产生的问题提出了一种解决方案。

RMA:Rapid Motor Adaptation。机器狗在走路时对环境变化的快速适应(防摔)

  • 模拟器与现实的差异性
    • 现实机器人模型与模拟器中模型的差异
    • 现实地形建模与模拟器中模型的差异
    • 物理模拟器无法准确捕捉真实世界的各类参数(比如可触形变等)
  • 迁移后fine-tuning的困难
    • RMA本身是一个短暂的过程,很难进行多次实验以确定不同action背后的cumulated reward
    • 现实设备的昂贵性,不能承受频繁的失败

RMA要求模型能有低于秒级的灵敏度,以及一旦部署在机器上就能直接适应的模型(不做微调),模型结构如下:

  • $e_t$ :模拟器环境的各类超参,如湿度、凹凸性、弹性形变等物理量
  • $x_t$ :$t$ 时刻的 state
  • $z_t$ :环境的特征向量,由Encoder $\mu$ 给出

训练过程:

  • phase1:直接用模拟器生成 $z$, 作为policy网络的输入
  • phase2:使用$s$、$a$、$z$的历史数据去训练适应模型 $\phi$
  • deployment:使用 $\phi$ 和 policy network直接跑

The key insight is that when we command a certain movement of the robot joints, the actual movement differs from that in a way that depends on the extrinsics.

最关键的一个观察是,当机器人关节进行某个运动时,实际位置的变化不仅取决于指令,还与环境有关。可以依赖此特点去反推环境。