DAWM: Diffusion Action World Models for Offline Reinforcement Learning via Action-Inferred Transitions

작성자

Haebom

카테고리

Empty

저자

Zongyue Li, Xiao Han, Yusong Li, Niklas Strauss, Matthias Schubert

💡 개요

본 논문은 오프라인 강화학습에서 긴 시간 지평의 현실적인 궤적 생성을 위해 확산 모델 기반 월드 모델을 제안합니다. 제안하는 DAWM은 현재 상태, 행동, 목표 수익을 조건으로 미래 상태-보상 궤적을 생성하며, 효율적인 행동 추론을 위한 역 동학 모델(IDM)을 함께 사용합니다. 이러한 모듈식 설계를 통해 표준적인 1단계 TD 학습 기반 오프라인 RL 알고리즘과의 호환성을 높여 효과적이고 계산 효율적인 학습을 가능하게 합니다.

🔑 시사점 및 한계

•

DAWM은 확산 모델을 활용하여 오프라인 강화학습에서 요구되는 완전한 합성 전환(상태, 행동, 보상, 다음 상태)을 생성하는 새로운 방법을 제시합니다.

•

제안된 방법론은 TD3BC, IQL과 같은 보수적인 오프라인 강화학습 알고리즘의 성능을 유의미하게 향상시키며, D4RL 벤치마크에서 기존 확산 기반 모델 대비 우수한 결과를 보입니다.

•

DAWM의 모듈식 설계는 훈련 복잡성을 줄이면서도 1단계 TD 학습에 적합한 데이터를 생성하는 데 기여합니다.

•

본 연구의 한계점은 제안된 모델이 특정 환경이나 작업에서 항상 최적의 성능을 보장하지 않을 수 있다는 점이며, 향후 연구에서는 더 다양한 환경과 복잡한 시나리오에 대한 일반화 성능을 개선하는 것이 과제입니다.

PDF 보기

Made with Slashpage