본 논문은 메타인지 강화 학습(MCRL) 모델을 이용하여 인간의 효율적인 계획 전략 습득 과정을 연구합니다. 기존 연구에서 MCRL 모델은 새로운 계획 전략을 학습하고 참가자들의 경험 기반 발견을 더 잘 설명하지만, 메타인지 학습의 개인차와 인간보다 느린 전략 발견 속도를 보였습니다. 따라서 본 연구는 내재적으로 생성된 메타인지 의사보상, 주관적 노력 평가, 종료 고려 등의 인지 메커니즘을 MCRL 모델에 통합하여 인간 수준의 성능에 근접하고자 하였습니다. 실험 결과, 상당수의 참가자들이 이러한 메커니즘 중 하나 이상을 사용했으며, 사용량과 전략 발견에 미치는 영향에는 개인차가 있었습니다. 메타인지 의사보상, 주관적 노력 평가, 추가 계획 없이 행동하는 가치 학습이 전략 발견을 촉진하는 것으로 나타났습니다. 하지만 모델과 인간의 성능 차이를 완전히 해소하지는 못하여 추가적인 연구가 필요함을 시사합니다.