Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MODULI: Unlocking Preference Generalization via Diffusion Models for Offline Multi-Objective Reinforcement Learning

Created by
  • Haebom

저자

Yifu Yuan, Zhenrui Zheng, Zibin Dong, Jianye Hao

개요

본 논문은 다목적 강화학습(MORL)에서 오프라인 학습의 일반화 성능 향상에 초점을 맞추고 있습니다. 기존 오프라인 MORL 알고리즘은 실제 데이터셋의 보수적인 분포로 인해 분포 외(OOD) 선호도에 대한 일반화 성능이 떨어지는 문제를 가지고 있습니다. 이를 해결하기 위해, 본 논문은 선호도 조건부 확산 모델을 계획자로 활용하는 MODULI(Multi-objective Diffusion Planner with Sliding Guidance) 알고리즘을 제안합니다. MODULI는 다양한 선호도에 맞춰 궤적을 생성하고 의사결정을 위한 행동을 도출하며, 정확한 생성을 위해 다양한 선호도 하에서 수익 정규화 방법을 도입합니다. 또한, 슬라이딩 가이드 메커니즘을 통해 OOD 선호도에 대한 일반화 성능을 향상시켜 불완전한 파레토 프런트를 확장합니다. D4MORL 벤치마크 실험을 통해 기존 방법보다 우수한 OOD 선호도 일반화 성능을 보임을 확인했습니다.

시사점, 한계점

시사점:
선호도 조건부 확산 모델을 활용하여 오프라인 MORL의 OOD 선호도 일반화 문제를 효과적으로 해결했습니다.
슬라이딩 가이드 메커니즘을 통해 ID 선호도에서 OOD 선호도로의 부드러운 전이를 가능하게 하여 파레토 프런트를 확장했습니다.
다양한 선호도에 대한 수익 정규화 방법을 제시하여 정확한 궤적 생성을 가능하게 했습니다.
D4MORL 벤치마크에서 SOTA 성능을 달성했습니다.
한계점:
제안된 알고리즘의 계산 비용이 높을 수 있습니다. (확산 모델의 특성상)
실제 복잡한 환경에서의 일반화 성능은 추가적인 실험을 통해 검증되어야 합니다.
슬라이딩 가이드 메커니즘의 매개변수 조정에 대한 추가적인 연구가 필요할 수 있습니다.
사용된 D4MORL 벤치마크의 일반성에 대한 고찰이 필요합니다. 다른 벤치마크에서도 동일한 성능을 보일지는 추가 검증이 필요합니다.
👍