Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Multi-Fidelity Policy Gradient Algorithms

Created by
  • Haebom

저자

Xinjie Liu, Cyrus Neary, Kushagra Gupta, Christian Ellis, Ufuk Topcu, David Fridovich-Keil

개요

본 논문은 강화 학습(RL) 알고리즘의 데이터 요구량 문제를 해결하기 위해 다중 충실도 정책 경사(MFPG) 프레임워크를 제안합니다. MFPG는 실제 환경(high-fidelity) 데이터와 저충실도 시뮬레이션(low-fidelity) 데이터를 결합하여, 불편향적이고 분산이 감소된 정책 경사 추정치를 생성합니다. REINFORCE와 Proximal Policy Optimization 알고리즘에 MFPG를 적용하여 로봇 시뮬레이션 실험을 진행한 결과, 실제 환경 데이터가 제한적인 경우 기존 방법 대비 최대 3.9배 높은 보상을 달성하고 훈련 안정성을 향상시켰습니다. 실제 환경 데이터를 10배 더 많이 사용하는 기존 방법과 비교하여도 MFPG는 동등하거나 더 나은 성능을 보였으며, 저충실도 환경이 실제 환경과 크게 다를 때에도 효과적인 정책을 학습하는 것을 확인했습니다. 따라서 MFPG는 효율적인 sim-to-real 전이를 위한 새로운 패러다임을 제시하고 정책 성능과 데이터 수집 비용 간의 절충을 체계적으로 관리하는 접근 방식을 제공합니다.

시사점, 한계점

시사점:
제한된 실제 환경 데이터를 효과적으로 활용하여 강화 학습의 성능을 향상시키는 새로운 프레임워크 제시.
저충실도 시뮬레이션 데이터를 활용하여 데이터 수집 비용을 절감하고 훈련 안정성을 개선.
실제 환경과 저충실도 환경 간의 차이가 클 때에도 효과적인 정책 학습 가능성을 입증.
sim-to-real 전이 과정의 효율성을 크게 개선.
한계점:
제안된 프레임워크의 일반성 및 다양한 RL 알고리즘으로의 확장성에 대한 추가 연구 필요.
저충실도 시뮬레이터의 설계 및 선택이 성능에 미치는 영향에 대한 추가 분석 필요.
실제 로봇 시스템에 대한 실험 결과가 아직 제시되지 않음.
복잡한 환경이나 고차원 상태 공간에서의 성능 평가 필요.
👍