Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

The Synergy of LLMs & RL Unlocks Offline Learning of Generalizable Language-Conditioned Policies with Low-fidelity Data

Created by
  • Haebom

저자

Thomas Pouplin, Katarzyna Kobalczyk, Hao Sun, Mihaela van der Schaar

개요

자연어로 명시된 복잡하고 다단계적인 의사결정 작업을 수행할 수 있는 자율 에이전트를 개발하는 것은, 특히 레이블이 지정된 데이터가 부족하고 실시간 실험이 비현실적인 실제 환경에서는 상당한 과제입니다. 기존 강화학습(RL) 접근 방식은 종종 보이지 않는 목표와 상태로 일반화하는 데 어려움을 겪어 적용성이 제한됩니다. 본 논문에서는 기호 환경에서 오프라인 언어 조건 정책 학습을 위한 새로운 교육 파이프라인인 TEDUO를 소개합니다. 기존 방법과 달리 TEDUO는 쉽게 이용 가능한 비표지 데이터 세트에서 작동하며 이전에 보지 못한 목표와 상태로의 일반화 과제를 해결합니다. 본 접근 방식은 대규모 언어 모델(LLM)을 이중적인 용량으로 활용합니다. 첫째, 더 풍부한 주석이 있는 오프라인 데이터 세트를 확장하는 자동화 도구로서, 둘째, 일반화 가능한 지침 따르기 에이전트로서 활용합니다. 실험 결과는 TEDUO가 강력한 언어 조건 정책의 데이터 효율적인 학습을 달성하여 기존 RL 프레임워크 또는 즉시 사용 가능한 LLM만으로는 달성할 수 없는 작업을 수행함을 보여줍니다.

시사점, 한계점

시사점:
기존 RL 방식의 일반화 한계를 극복하고, 제한된 데이터로 복잡한 작업 수행 가능성 제시.
LLM을 데이터 증강 및 에이전트 제어에 활용하는 새로운 접근 방식 제시.
데이터 효율적인 언어 조건 정책 학습 성공적으로 구현.
기존 RL 또는 LLM 단독으로는 불가능한 작업 수행.
한계점:
제시된 방법론의 실제 환경 적용 가능성 및 확장성에 대한 추가 연구 필요.
사용된 기호 환경의 특성이 결과에 미치는 영향에 대한 분석 필요.
LLM 의존도가 높아 LLM의 성능 및 한계가 TEDUO 성능에 영향을 미칠 수 있음.
다양한 환경 및 작업에 대한 일반화 성능 평가 추가 필요.
👍