본 논문은 대규모 언어 모델(LLM)의 효율적인 암묵적 추론을 위한 프레임워크를 제시합니다. 기존의 사고 과정(CoT) 프롬프팅 방식은 계산 비용이 많이 들고 속도가 느리다는 단점이 있는데, 본 논문에서는 계산 과정을 텍스트로 명시적으로 생성하지 않고 잠재 공간에서 추론하는 방법을 제안합니다. 이를 위해 계층적 강화 학습 프레임워크 내에서 잠재적 사고 과정을 시간적으로 확장된 추상적 행동(옵션)으로 모델링하고, 변분 마르코프 옵션 비평가(VMOC) 알고리즘을 이용하여 다양한 옵션을 잠재적 임베딩으로 학습합니다. 연속 MDP 동형 사상 이론을 확장하여 잠재 공간에서의 정책 학습이 원래 복잡한 문제의 최적 해결책을 보존함을 증명하고, 감독 미세 조정(SFT) 데이터를 활용하여 인간 추론 시연을 잠재 옵션 공간으로 증류하는 콜드 스타트 절차를 제안합니다. 복잡한 논리적 추론 벤치마크와 움직임 과제에서의 실험 결과는 제안된 프레임워크의 효과를 보여줍니다.