World Modeling with Compositional Causal Components (WM3C)는 강화학습(RL)에서의 일반화 문제, 특히 에이전트가 미지의 역동성을 가진 새로운 환경을 만났을 때의 일반화 문제를 해결하기 위해 제안된 새로운 프레임워크입니다. 인간의 구성적 추론(알려진 구성 요소를 재구성하여 새로운 상황을 처리하는 방식)에서 영감을 얻어, WM3C는 구성 가능한 인과 구성 요소를 학습하고 활용함으로써 RL 일반화를 향상시킵니다. 불변 표현 학습이나 메타 학습에 초점을 맞춘 이전 접근 방식과 달리, WM3C는 구성 가능한 요소 간의 인과 역동성을 식별하고 활용하여 새로운 작업에 대한 강력한 적응을 가능하게 합니다. 이 접근 방식은 언어를 구성적 모드로 통합하여 잠재 공간을 의미 있는 구성 요소로 분해하고, 약한 가정 하에서 고유한 식별에 대한 이론적 보장을 제공합니다. 실제 구현은 마스크된 오토인코더에 상호 정보 제약 조건과 적응형 스파스 정규화를 사용하여 고차원 의미 정보를 포착하고 전이 역동성을 효과적으로 분리합니다. 수치 시뮬레이션과 실제 로봇 조작 작업에 대한 실험은 WM3C가 기존 방법보다 잠재 프로세스 식별, 정책 학습 개선 및 보이지 않는 작업에 대한 일반화에서 상당히 우수한 성능을 보임을 보여줍니다.