[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Online Intrinsic Rewards for Decision Making Agents from Large Language Model Feedback

Created by
  • Haebom

저자

Qinqing Zheng, Mikael Henaff, Amy Zhang, Aditya Grover, Brandon Amos

개요

본 논문은 강화학습에서 자연어 설명으로부터 밀집 보상을 자동으로 합성하는 방법을 제시합니다. 기존 연구들의 한계점인 LLM 어노테이션의 확장성 문제 및 방대한 오프라인 데이터셋 필요성을 해결하기 위해, 분산 아키텍처 ONI를 제안합니다. ONI는 비동기식 LLM 서버를 통해 에이전트의 경험을 어노테이션하고, 이를 내재적 보상 모델로 증류하는 방식입니다. 해싱, 분류, 순위 지정 모델 등 다양한 알고리즘을 탐색하며, NetHack Learning Environment의 다양한 과제에서 최첨단 성능을 달성합니다. 기존 연구와 달리 대규모 오프라인 데이터셋이 필요하지 않습니다. 코드는 깃허브에 공개되었습니다.

시사점, 한계점

시사점:
LLM 기반 자연어 설명을 활용한 밀집 보상 합성의 확장성 문제 해결.
대규모 오프라인 데이터셋 없이 강화학습 에이전트 학습 가능.
다양한 알고리즘적 선택지를 통해 최적의 보상 모델링 가능성 제시.
NetHack Learning Environment에서 최첨단 성능 달성.
오픈소스 코드 공개를 통한 연구 재현성 및 확장성 증대.
한계점:
LLM 서버 의존성: LLM 서버의 성능 및 가용성에 따라 성능 저하 가능성 존재.
알고리즘의 복잡도: 다양한 알고리즘의 성능 비교 및 최적화 필요.
일반화 성능: NetHack 환경에 특화된 성능으로, 다른 환경으로의 일반화 성능 검증 필요.
👍