Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

JEDI: Latent End-to-end Diffusion Mitigates Agent-Human Performance Asymmetry in Model-Based Reinforcement Learning

Created by
  • Haebom

저자

Jing Yu Lim, Zarif Ikram, Samson Yu, Haozhe Ma, Tze-Yun Leong, Dianbo Liu

개요

본 논문은 모델 기반 강화 학습(MBRL)에서 확산 월드 모델을 이용한 에이전트가 Atari100k 벤치마크에서 초인적 성능을 달성했지만, 특정 과제에서는 극적인 성능 차이를 보이는 점을 지적합니다. 특히 픽셀 기반 에이전트에서 이러한 비대칭성이 두드러지는데, 이는 월드 모델 목표로 학습된 시간적 구조가 부족하기 때문이라고 가정합니다. 이를 해결하기 위해 자기 일관성 목표 함수로 학습되는 새로운 잠재 확산 월드 모델인 JEDI를 제안합니다. JEDI는 인간 최적 과제에서 최첨단 모델을 능가하고, 기존 픽셀 기반 확산 모델보다 3배 빠르고 메모리 사용량이 43% 적습니다. 본 연구는 Atari100k에서 초인적 성능의 의미를 재고찰합니다.

시사점, 한계점

시사점:
Atari100k 벤치마크에서의 MBRL 에이전트 성능 평가 방식의 문제점을 지적하고, Agent-Optimal 및 Human-Optimal 과제를 구분하여 평가할 것을 제안합니다.
픽셀 기반 에이전트의 성능 비대칭성의 원인을 시간적 구조가 부족한 잠재 공간으로 분석합니다.
JEDI라는 새로운 잠재 확산 월드 모델을 제안하여 Human-Optimal 과제에서의 성능을 향상시키고 효율성을 높였습니다.
Atari100k에서 초인적 성능 달성에 대한 기존의 견해를 재검토할 필요성을 강조합니다.
한계점:
JEDI의 성능 향상이 모든 Human-Optimal 과제에서 일관되게 나타나는지에 대한 추가적인 검증이 필요합니다.
제안된 Agent-Optimal 및 Human-Optimal 과제 분류 기준의 객관성 및 일반화 가능성에 대한 논의가 부족합니다.
다른 벤치마크 환경에서 JEDI의 일반화 성능에 대한 평가가 필요합니다.
👍