Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Text-to-Decision Agent: Offline Meta-Reinforcement Learning from Natural Language Supervision

Created by
  • Haebom
Category
Empty

저자

Shilin Zhang, Zican Hu, Wenhao Wu, Xinyi Xie, Jianxiang Tang, Chunlin Chen, Daoyi Dong, Yu Cheng, Zhenhong Sun, Zhi Wang

개요

T2DA는 오프라인 메타-RL에서 자연어를 활용하여 일반화를 달성하는 프레임워크입니다. 고품질 샘플이나 워밍업 탐색에 의존하는 기존 방식의 한계를 극복하고, 텍스트 설명을 직접 활용하여 더 넓은 범위의 정보를 활용합니다. T2DA는 멀티태스크 의사 결정 데이터를 동적 인식 임베딩 공간으로 인코딩하는 일반화된 세계 모델을 도입하고, CLIP을 기반으로 텍스트 설명과 의사 결정 임베딩 간의 관계를 예측합니다. 이는 대비 언어-의사 결정 사전 훈련을 통해 텍스트 임베딩을 환경 역학에 맞게 정렬합니다. 훈련된 텍스트 조건 일반 정책을 통해, 에이전트는 언어 지침에 따라 제로샷 텍스트-의사 결정 생성을 수행할 수 있습니다. MuJoCo 및 Meta-World 벤치마크에서 제로샷 일반화 성능을 입증하며, 다양한 기반 모델보다 뛰어난 결과를 보였습니다.

시사점, 한계점

시사점:
자연어를 활용하여 오프라인 메타-RL의 일반화 능력을 향상시킴.
고품질 샘플이나 워밍업 탐색 없이 제로샷 텍스트-의사 결정 생성을 가능하게 함.
MuJoCo 및 Meta-World 벤치마크에서 우수한 성능을 보임.
확장 가능하고 간단한 프레임워크를 제시함.
한계점:
논문에서 구체적인 한계점이 명시적으로 언급되지 않음.
구체적인 환경 및 작업에 대한 일반화 성능은 추가적인 연구가 필요함.
텍스트 설명의 품질에 따라 성능이 영향을 받을 수 있음.
👍