GNFactor: Multi-Task Real Robot Learning with Generalizable Neural Feature Fields

GNFactor: Multi-Task Real Robot Learning with Generalizable Neural...

<aside> 💡 Keywords: Robotic Manipulation, Neural Radiance Field, Behavior Cloning

</aside>

Introduction

적은 양의 demonstration으로 Imitation learning을 통한 multi-task manipulation을 구현한다.

현재까지의 로봇 러닝 분야의 visual representation은 2D 이미지에 중점을 두었으나 이 경우 pre-trained 모델에서 representation을 찾아와 policy gradient와 함께 optimize한다. 보다 복잡한 task를 수행하기 위해 3D visual representation을 활용하는 방법이 연구되고 있으며 NeRF를 이용한 3D scene representation으로 지도학습을 진행한 경우가 있다.

본 연구에서는

a language-conditioned policy using a novel representation leveraging both 3D and semantic information for multi-task manipulation

를 소개한다.

Pre-trained 2D 모델의 semantic feature를 NeRF를 통과시켜 General Neural Feature Field(GNF)를 학습시키고 이를 기반으로 policy 학습을 통해 GNFactor를 개발한다.

학습 과정은 두 가지로 갈린다.

  1. GNF training

    Expert demonstration을 바탕으로 view synthesis와 volumetric rendering을 활용해 GNF를 학습시킨다. Volumetric rendering에서 RGB 픽셀 렌더링 외에도 모델 feature을 함께 렌더링하며, GNF는 픽셀과 feature를 동시에 학습한다.

  2. GNFactor joint training

    GNF의 학습 목표로 최적화된 3D volumetric feature을 기반으로 BC를 수행하여 전체 모델을 end-to-end로 학습

Related Work

기본적으로 NeRF와 PerAct를 알면 이해하기 쉽다.

NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

Perceiver-Actor: A Multi-Task Transformer for Robotic Manipulation

Learning Generalizable Feature Fields for Mobile Manipulation

Method

GNFactor를 한 문장으로 소개하면 다음과 같다.