Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SR-Reward: Taking The Path More Traveled

Created by
  • Haebom

저자

Seyed Mahdi B. Azad, Zahra Padar, Gabriel Kalweit, Joschka Boedecker

개요

본 논문은 오프라인 데모로부터 보상 함수를 직접 학습하는 새로운 방법을 제안합니다. 기존의 역강화학습(IRL)과 달리, 제안하는 방법은 학습자의 정책으로부터 보상 함수를 분리하여 두 요소 간의 일반적인 적대적 상호작용을 제거함으로써 더 안정적이고 효율적인 훈련 과정을 달성합니다. "SR-Reward"라 명명된 보상 함수는 후속 표현(SR)을 활용하여 데모 정책과 전이 역학에 따른 예상되는 미래 상태 방문을 기반으로 상태를 인코딩합니다. 벨만 방정식을 이용하여 SR-Reward는 기존 훈련 파이프라인을 변경하지 않고 대부분의 강화학습(RL) 알고리즘과 동시에 학습될 수 있습니다. 또한, 분포 외 데이터에 대한 보상을 줄임으로써 과대추정 오류를 완화하는 음성 샘플링 전략을 도입하여 강건성을 향상시킵니다. 이 전략은 학습된 보상을 사용하는 RL 알고리즘에 본질적으로 보수적인 편향을 도입합니다. D4RL 벤치마크에서 평가한 결과, 실제 보상에 접근할 수 있는 오프라인 RL 알고리즘 및 행동 복제와 같은 모방 학습(IL) 기법과 비교하여 경쟁력 있는 결과를 달성했습니다. 데이터 크기와 품질에 대한 추가 실험을 통해 SR-Reward가 실제 보상의 대리 지표로서 갖는 장점과 한계를 밝혔습니다.

시사점, 한계점

시사점:
오프라인 데모에서 보상 함수를 효율적이고 안정적으로 학습하는 새로운 방법 제시.
기존 강화학습 파이프라인 변경 없이 보상 함수 학습 가능.
음성 샘플링 전략을 통해 과대추정 오류 완화 및 강건성 향상.
D4RL 벤치마크에서 기존 방법들과 경쟁력 있는 성능 달성.
한계점:
음성 샘플링 전략이 RL 알고리즘에 보수적인 편향을 도입.
데이터 크기 및 품질에 따라 성능 영향을 받음 (추가 실험을 통해 한계점 확인).
SR-Reward가 실제 보상을 완벽히 대체하지 못할 수 있음 (실제 보상과의 차이 존재).
👍