PROWL: Prioritized Regret-Driven Optimization for World Model Learning

작성자

Haebom

카테고리

Empty

저자

Ahmet H. Guzel, Jenny Seidenschwarz, Benjamin Graham, Jonathan Sadeghi, Jeffrey Hawke, Jack Parker-Holder, Ilija Bogunovic

💡 개요

본 논문은 행동 조건부 비디오 월드 모델이 드물지만 계획 및 정책 성능에 중요한 전환에서 신뢰성이 떨어진다는 문제를 해결합니다. 이를 위해 KL 제약을 받는 적대적 커리큘럼을 제안하여, 행동 분포에서 크게 벗어나지 않으면서 높은 오류를 유발하는 궤적을 탐색하고 이를 통해 월드 모델을 지속적으로 개선합니다. 이러한 방식은 희귀한 실패 사례를 안정적인 학습 신호로 전환하고, 모델 개선에 따라 학습 압력을 유지하여 미해결된 약점을 효과적으로 개선합니다.

🔑 시사점 및 한계

•

월드 모델의 취약점을 능동적으로 탐색하고 이를 학습에 활용함으로써, 희귀하지만 중요한 전환에서의 견고성을 크게 향상시킬 수 있습니다.

•

적대적 학습 시 행동 제약을 통해 모델이 분포 외의 영역으로 과도하게 벗어나는 것을 방지하고, 학습 데이터의 질을 높여 월드 모델의 일반화 성능을 개선할 수 있습니다.

•

학습 데이터의 편향성을 극복하기 위해 단순히 데이터셋 크기를 늘리는 것 외에, 선택적으로 정보를 효과적으로 생성하는 전략이 중요함을 시사합니다.

•

제안된 Prioritized Adversarial Trajectory (PAT) 버퍼는 학습 진행 상황에 따라 우선순위를 재조정하여 효율성을 높이지만, 적대적 탐색과 행동 정규화 간의 최적 균형을 찾는 것은 여전히 중요한 과제입니다.

PDF 보기

Made with Slashpage