본 논문은 동물의 자율적인 탐험 행동을 모방하는 새로운 모델 기반 내적 동기 부여 방법인 3M-Progress를 제시합니다. 기존 강화 학습 기반 탐험 방법의 한계를 극복하고자, 에이전트의 세계 모델과 생태학적 사전 지식 간의 차이를 추적하여 자연스러운 행동을 유도합니다. 3M-Progress로 훈련된 인공 에이전트는 자율적으로 행동하는 제브라피쉬 유충의 행동 패턴과 전뇌 신경-교세포 역동성을 설명하는 데 성공하며, 신경-교세포 계산의 목표 지향적이고 집단 수준의 모델을 최초로 제시합니다. 이를 통해 모델 기반 내적 동기 부여와 자연스러운 행동 간의 계산적 틀을 확립하고, 동물과 같은 자율성을 가진 인공 에이전트를 구축하는 기반을 마련합니다.