GenLoco: Generalized Locomotion Controllers for Quadrupedal Robots
GenLoco Github
https://github.com/HybridRobotics/GenLoco
4족보행 로봇의 연구/기업 내 사용이 증가함에 따라 다양한 로봇에서 활용 가능한 보행 제어기의 필요성이 증가했다. 기존의 보행 제어기는 robot specific한 모델으로 강화학습 기반 제어기는 이론적으로는 모든 로봇에 적요이 가능하지만 실제로는 reward formulation의 특이성으로 단일 로봇에서만 정상적으로 동작한다. 이 논문에서는 유사한 형태의 4족보행 로봇의 보행을 위한 generalized locomotion(GenLoco) controller 강화학습 기반 프레임워크를 개발한다. 해당 제어기는 Unitree A1, MIT Mini Cheetah, CUHK Sirius에서 작동함을 확인했다. 다만, DoF이 수와 link constant는 통제한다.
강화학습(RL)은 다양한 작업에 대한 로봇 제어기를 자동으로 합성하는 일반적인 프레임워크를 제공합니다. RL로 학습된 제어기는 sim-to-real 기술을 사용하며, 그 중 domain randomization이 가장 널리 사용된다. Domain randomization은 학습 중의 dynamics를 랜덤화하여 현실의 동역학적 환경에 적응하도록 한다.
이 연구에서도 domain randomization을 사용하나, 알려진 형태의 로봇에 대해서만 sim-to-real 방법을 적용한 기존 연구들과 달리, training에 알려지지 않은 morphology를 포함한다. Morphology randomization을 통해 학습 과정에서 형태 정보에 대한 의존도를 낮추고 dynamic env와 morphology에 randomization을 적용해 “General”한 제어기를 개발한다.
RL 로직 상에서 로봇의 형태를 명시적으로 인코딩하는 것과 달리 GenLoco 제어기는 feed forward neural network를 톨해 과거 observation, action을 통해 implicit encoding하는 policy를 개발한다.
Our models are trained by randomizing the morphology and other dynamics properties during training in simulation, thereby encouraging the controller to learn adaptable strategies, which can be effectively applied on different robots.
이미지와 같이 널리 사용되는 4족보행 로봇들은 형태, 구조, 역학적 특성을 일부 공유한다. 따라서 Table 1에 정의된 parameter를 episode마다 미리 작성한 morphology template기반으로 randomize하여 로봇의 형태를 새로 정의한다.
Size factor $\alpha$ : 전체 body의 scale
PD gains : PD param(by mass)
Robot base : size&density
Leg parameters : thigh&calf