Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Robot-R1: Reinforcement Learning for Enhanced Embodied Reasoning in Robotics

Created by
  • Haebom

저자

Dongyoung Kim, Sumin Park, Huiwon Jang, Jinwoo Shin, Jaehyung Kim, Younggyo Seo

개요

대규모 비전-언어 모델(LVLMs)이 육체화된 추론과 로봇 제어를 결합하여 로봇 공학 발전에 큰 가능성을 보여주고 있습니다. 일반적인 접근 방식은 지도 미세 조정(SFT)을 사용하여 로봇 제어와 관련된 육체화된 추론 작업에 대한 훈련을 포함합니다. 그러나 SFT 데이터셋은 종종 휴리스틱하게 구성되며 로봇 제어 개선을 위해 명시적으로 최적화되지 않습니다. 또한 SFT는 종종 치명적인 망각과 일반화 성능 저하와 같은 문제로 이어집니다. 이러한 한계를 해결하기 위해, 본 논문에서는 로봇 제어를 위해 특별히 육체화된 추론을 향상시키는 강화 학습을 활용하는 새로운 프레임워크인 Robot-R1을 소개합니다. Robot-R1은 전문가 데모에서 파생된 현재 장면 이미지와 환경 메타데이터를 조건으로 작업 완료에 필요한 다음 키포인트 상태를 예측하는 방법을 학습합니다. DeepSeek-R1 학습 접근 방식에서 영감을 받은 Robot-R1은 추론 기반 응답을 샘플링하고 더 정확한 예측으로 이어지는 응답을 강화합니다. 실험 결과, Robot-R1로 훈련된 모델이 육체화된 추론 작업에서 SFT 방법보다 성능이 뛰어남을 보여줍니다. 7B 매개변수만 가지고도 Robot-R1은 공간 및 기본 이동 추론과 같은 저수준 동작 제어와 관련된 추론 작업에서 GPT-4o를 능가합니다.

시사점, 한계점

시사점:
강화 학습을 활용하여 로봇 제어를 위한 육체화된 추론을 효과적으로 향상시키는 새로운 프레임워크 Robot-R1 제시.
SFT의 한계점인 치명적인 망각과 일반화 성능 저하 문제 해결.
7B 매개변수의 소규모 모델임에도 불구하고, 저수준 동작 제어 관련 추론 작업에서 GPT-4o를 능가하는 성능 달성.
한계점:
Robot-R1의 성능 향상이 특정 작업 또는 환경에 국한될 가능성.
전문가 데모에 대한 의존성으로 인한 데이터 수집의 어려움 및 데이터 편향 문제 발생 가능성.
더욱 복잡하고 다양한 로봇 제어 작업에 대한 일반화 성능 평가 필요.
👍