본 논문은 범용 인공지능(AGI) 모델인 AIXI와 변분적 권한 부여(variational empowerment)를 탐색을 위한 내적 동기로 통합하는 이론적 틀을 제시합니다. 자신의 행동을 예측하는 범용 학습 에이전트인 Self-AIXI의 기존 틀을 기반으로, Self-AIXI의 기존 항 중 하나가 변분적 권한 부여 목표로 해석될 수 있음을 보입니다. 또한, 범용 인공지능의 계획 과정을 기대 변분 자유 에너지(활동 추론의 핵심 원리) 최소화로 나타낼 수 있음을 보여줌으로써, 범용 인공지능 에이전트가 목표 지향적 행동과 불확실성 감소(호기심)을 어떻게 내재적으로 균형을 이루는지 밝힙니다. 더 나아가, 범용 인공지능 에이전트의 권력 추구 경향은 미래 보상을 확보하기 위한 도구적 전략일 뿐만 아니라, 권한 부여 극대화 – 즉, 불확실한 환경에서 자신의 제어 가능성을 유지하거나 확장하려는 에이전트의 내적 동기 – 의 직접적인 결과로 설명될 수 있다고 주장합니다. 주요 기여는 이러한 내적 동기(권한 부여, 호기심)가 범용 인공지능 에이전트가 어떻게 체계적으로 고옵션 상태를 추구하고 유지하도록 이끄는지 보여주는 것입니다. 적절한 조건 하에서 Self-AIXI가 AIXI와 동일한 성능으로 점근적으로 수렴함을 증명하고, 그 권력 추구 행동이 보상 극대화와 호기심에 의한 탐색 모두에서 자연스럽게 발생함을 강조합니다. AIXI는 인공 일반 지능(AGI)에 대한 베이즈 최적 수학적 공식으로 볼 수 있으므로, 본 연구 결과는 AI 안전성과 AGI의 제어 가능성에 대한 추가 논의에 유용할 수 있습니다.