Sign In

Human-in-the-loop Online Rejection Sampling for Robotic Manipulation

Created by
  • Haebom
Category
Empty

저자

Guanxing Lu, Rui Zhao, Haitao Lin, He Zhang, Yansong Tang

개요

강화 학습(RL)은 로봇 조작 정책을 만드는 데 널리 사용되지만, 시각-언어-행동(VLA) 모델을 RL로 미세 조정하는 것은 부정확한 가치 추정 및 중간 단계에서 희소한 지도 때문에 불안정할 수 있다. 반면, 모방 학습(IL)은 훈련하기 쉽지만 오프라인 특성으로 인해 종종 성능이 떨어진다. 본 논문에서는 거부 표본 추출을 활용하여 훈련 안정성과 높은 견고성을 모두 달성하는 간단하면서도 효과적인 사후 훈련 방법인 Hi-ORS를 제안한다. Hi-ORS는 온라인 미세 조정을 하는 동안 부정적인 보상을 받은 샘플을 필터링하여 가치 추정을 안정화하고, 보상 가중치 지도를 통해 중간 단계 지도를 제공한다. 체계적인 연구를 위해, 오류 복구 동작 학습에 대한 명시적 지침 역할을 하는 유연한 온라인 인간 중심의 수정을 지원하는 비동기식 추론-훈련 프레임워크를 개발했다. 세 가지 실제 작업과 두 가지 구현 방식에서 Hi-ORS는 pi-base 정책을 1.5시간의 실제 훈련만으로 접촉이 많은 조작을 마스터하도록 미세 조정하여 RL 및 IL 기준선을 성능과 효율성 모두에서 상당한 차이로 능가한다. 특히, 미세 조정된 정책은 복잡한 오류 복구 동작을 안정적으로 실행하여 더 나은 성능을 달성함으로써 강력한 테스트 시간 확장성을 나타낸다.

시사점, 한계점

시사점:
Hi-ORS는 RL의 불안정성과 IL의 성능 저하 문제를 해결하여, 로봇 조작 정책 훈련의 효율성과 성능을 향상시켰다.
거부 표본 추출 및 보상 가중치 지도를 통해 훈련 안정성을 확보하고, 중간 단계 지도를 제공하여 학습 효율을 높였다.
인간 중심의 수정을 지원하는 비동기식 프레임워크를 통해 오류 복구 동작 학습에 대한 명시적인 지침을 제공했다.
실제 작업에서 RL 및 IL 기반 모델보다 우수한 성능을 보였다.
테스트 시간 확장성을 통해 복잡한 오류 복구 동작을 수행하는 능력을 입증했다.
한계점:
구체적인 한계점은 논문에 명시되지 않음. (논문 요약만으로는 알 수 없음)
👍