대규모 추론 모델(LRM)은 복잡한 추론 작업에서 강력한 성능을 보이지만, 작업 난이도에 관계없이 과도한 추론을 하여 불필요한 내용을 생성하는 문제가 있습니다. 본 논문에서는 인지 과학의 이중 과정 이론에서 영감을 얻어, 적응적 인지 할당 및 동적 시스템 전환을 통해 LRM이 효율적인 추론을 달성할 수 있도록 하는 강화 학습 프레임워크인 적응적 인지 정책 최적화(ACPO)를 제안합니다. ACPO는 두 가지 주요 구성 요소를 포함합니다. (1) 사고 방식을 명시적으로 나타내는 시스템 인식 추론 토큰을 도입하여 모델의 인지 과정을 투명하게 만듭니다. (2) 온라인 난이도 추정 및 토큰 길이 예산을 통합하여 강화 학습 중 적응적 시스템 전환 및 추론을 안내합니다. 이를 위해 2단계 교육 전략을 제안합니다. 1단계는 감독식 미세 조정으로 모델을 시작하여 명시적인 사고 방식으로 추론 경로를 생성할 수 있도록 합니다. 2단계에서는 ACPO를 적용하여 난이도 인식 추론을 위한 적응적 시스템 전환을 더욱 향상시킵니다. 실험 결과에 따르면 ACPO는 불필요한 추론을 효과적으로 줄이고 작업 복잡도에 따라 적응적으로 인지 할당을 조정하여 효율적인 하이브리드 추론을 달성합니다.