Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

AMPED: Adaptive Multi-objective Projection for balancing Exploration and skill Diversification

Created by
  • Haebom

저자

Geonwoo Cho, Jaemoon Lee, Jaegyun Im, Subi Lee, Jihwan Lee, Sundong Kim

개요

Skill-based 강화 학습(SBRL)은 사전 훈련된 기술 조건부 정책을 통해 희소 보상 환경에서 빠른 적응을 가능하게 한다. 효과적인 기술 학습에는 탐험과 기술 다양성을 함께 최대화하는 것이 필요하다. 본 논문에서는 탐험과 기술 다양성을 동시에 해결하기 위해 Adaptive Multi-objective Projection for balancing Exploration and skill Diversification (AMPED)를 제안한다. AMPED는 사전 훈련 동안 탐험 및 다양성 기울기를 균형 있게 조정하는 기울기 수술 프로젝션을 사용하고, 미세 조정 동안 기술 선택기를 사용하여 다운스트림 작업에 적합한 기술을 선택한다. AMPED는 다양한 벤치마크에서 SBRL baseline보다 뛰어난 성능을 보이며, 구성 요소별 역할 분석을 통해 AMPED의 각 요소가 성능에 기여함을 확인했다. 또한, 탐욕적 기술 선택기를 사용하면 기술 다양성이 클수록 미세 조정 샘플 복잡성이 감소한다는 이론적 및 실증적 증거를 제시했다.

시사점, 한계점

시사점:
탐험과 기술 다양성을 명시적으로 조화시키는 것이 중요함을 강조.
AMPED를 통해 강력하고 일반화 가능한 기술 학습을 가능하게 함.
제안된 AMPED 방법론은 다양한 벤치마크에서 SBRL baseline을 능가하는 성능을 보임.
기술 다양성이 미세 조정 샘플 복잡성을 줄이는 효과를 이론적, 실증적으로 입증.
한계점:
논문에 명시된 한계점은 없음.
👍