Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Composite Flow Matching for Reinforcement Learning with Shifted-Dynamics Data

Created by
  • Haebom

저자

Lingkai Kong, Haichuan Wang, Tonghan Wang, Guojun Xiong, Milind Tambe

개요

본 논문은 소스 환경의 사전 수집된 오프라인 데이터를 활용하여 강화 학습(RL)의 샘플 효율성을 향상시키는 방법을 제안합니다. 소스 환경과 타겟 환경 간의 전이 역학 차이로 인해 기존 방법들이 어려움을 겪는 문제를 해결하기 위해, CompFlow라는 새로운 방법을 제시합니다. CompFlow는 흐름 일치와 최적 수송 간의 이론적 연관성에 기반하여 타겟 역학을 소스 도메인 흐름의 출력 분포를 기반으로 하는 조건부 흐름으로 모델링합니다. 이를 통해 타겟 역학 학습의 일반화 성능을 향상시키고, 소스와 타겟 전이 간의 Wasserstein 거리를 이용하여 역학 차이를 원칙적으로 추정합니다. 또한, 역학 차이가 큰 영역에서 탐색을 우선시하는 낙관적인 능동 데이터 수집 전략을 도입하여 최적 정책과의 성능 차이를 줄이는 것을 이론적으로 증명합니다. 실험 결과, CompFlow는 역학이 이동된 여러 RL 벤치마크에서 기존 최고 성능 방법들을 능가하는 성능을 보입니다.

시사점, 한계점

시사점:
소스와 타겟 환경의 전이 역학 차이가 큰 경우에도 효과적으로 오프라인 데이터를 활용하여 RL의 샘플 효율성을 높일 수 있는 새로운 방법 제시.
Wasserstein 거리를 이용한 역학 차이 추정은 KL divergence나 mutual information에 비해 disjoint support 문제를 해결하는 데 효과적임.
낙관적인 능동 데이터 수집 전략을 통해 최적 정책과의 성능 차이를 줄일 수 있음을 이론적으로 증명.
여러 RL 벤치마크에서 기존 방법들보다 우수한 성능을 실험적으로 검증.
한계점:
제안된 방법의 계산 비용 및 복잡도에 대한 분석이 부족함.
다양한 환경 및 과제에 대한 일반화 성능에 대한 추가적인 실험이 필요함.
Wasserstein 거리 계산의 계산 비용이 높을 수 있음.
실제 복잡한 환경에서의 적용 가능성에 대한 추가적인 연구가 필요함.
👍