Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

RLZero: Direct Policy Inference from Language Without In-Domain Supervision

Created by
  • Haebom

저자

Harshit Sikchi, Siddhant Agarwal, Pranaya Jajoo, Samyak Parajuli, Caleb Chuck, Max Rudolph, Peter Stone, Amy Zhang, Scott Niekum

개요

본 논문은 보상 가설의 어려움을 해결하기 위해, 사전 훈련된 강화 학습(RL) 에이전트를 이용하여 자연어 명령어로부터 제로샷 테스트 시간 정책 추론을 가능하게 하는 새로운 접근 방식인 RLZero를 제시합니다. RLZero는 비지도 학습된 오프라인 상호 작용 데이터만을 사용하여 훈련되며, 특정 작업에 대한 감독이나 라벨링된 궤적 없이도 임의의 자연어 명령어로부터 정책을 생성합니다. 이는 '상상-투영-모방'의 세 단계를 거치는데, 먼저 비디오 생성 모델을 사용하여 자연어 설명에 해당하는 관찰 시퀀스를 상상하고, 이를 목표 환경 도메인으로 투영한 후, 사전 훈련된 에이전트가 투영된 관찰 시퀀스를 모방합니다. 본 논문은 RLZero가 다양한 작업과 환경에서 어떠한 도메인 내 감독 없이도 직접적인 언어-행동 생성 능력을 보여주는 최초의 접근 방식임을 주장하며, YouTube와 같은 크로스-엠보디먼트 비디오로부터 인간형 로봇과 같은 복잡한 구현체에 대한 제로샷 정책 생성도 가능함을 보여줍니다.

시사점, 한계점

시사점:
자연어 명령어를 통해 제로샷 강화학습 정책 생성이 가능함을 보여줌으로써, 강화학습의 적용 범위를 확장합니다.
비지도 학습만으로도 복잡한 작업을 수행할 수 있는 에이전트를 훈련할 수 있음을 시사합니다.
크로스-엠보디먼트 비디오를 활용하여 다양한 환경과 에이전트에 대한 정책 생성을 가능하게 합니다.
한계점:
비디오 생성 모델의 성능에 RLZero의 성능이 의존적일 수 있습니다.
복잡한 자연어 명령어나 모호한 상황에 대한 처리 능력이 제한적일 수 있습니다.
제로샷 성능이 모든 작업과 환경에서 일관되게 높게 나타날 것이라는 보장은 없습니다.
사전 훈련된 에이전트와 비디오 생성 모델의 규모와 복잡성으로 인해 계산 비용이 높을 수 있습니다.
👍