Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Random Policy Enables In-Context Reinforcement Learning within Trust Horizons

Created by
  • Haebom
Category
Empty

저자

Weiqin Chen, Santiago Paternain

개요

본 논문은 강화학습에서 사전 학습된 기초 모델의 제로샷 일반화 능력을 향상시키는 새로운 방법인 상태-행동 증류(SAD)를 제안합니다. 기존의 In-context RL (ICRL) 알고리즘들은 사전 학습 데이터셋에 최적 정책이나 잘 훈련된 행동 정책을 요구하여 실세계 적용에 어려움이 있었는데, SAD는 무작위 정책만을 사용하여 효과적인 사전 학습 데이터셋을 생성합니다. SAD는 신뢰 수평선 내에서 무작위 정책을 사용하여 우수한 상태-행동 쌍을 추출하고, 이를 기반으로 자기회귀 지도 학습 방식을 통해 사전 학습을 수행합니다. 실험 결과, SAD는 기존 최고 성능 알고리즘보다 오프라인 평가에서 236.3%, 온라인 평가에서 135.2% 향상된 성능을 보였습니다.

시사점, 한계점

시사점:
무작위 정책만으로도 효과적인 ICRL 사전 학습 데이터셋 생성이 가능함을 보임.
기존 ICRL 알고리즘의 실세계 적용에 대한 제약을 해소.
다양한 ICRL 벤치마크 환경에서 기존 알고리즘보다 우수한 성능을 달성.
SAD의 신뢰성 및 성능 보장에 대한 정량적 분석 제공.
한계점:
본 논문에서 제시된 신뢰 수평선의 설정 방법에 대한 자세한 설명이 부족할 수 있음.
다양한 환경에서의 일반화 성능에 대한 추가적인 실험이 필요할 수 있음.
SAD 알고리즘의 복잡도 및 계산 비용에 대한 분석이 필요할 수 있음.
👍