강화 학습(RL)은 대규모 언어 모델(LLM)의 추론 능력을 향상시킬 수 있지만, LLM이 이미 높은 효용성의 추론 경로를 생성할 수 있어야 한다는 중요한 전제 조건에 의존한다. LLM의 현재 역량을 넘어선 작업의 경우, 이러한 추론 경로를 샘플링하기 어려울 수 있으며, 익숙하지만 최적화되지 않은 추론을 강화하는 위험이 있다. 본 연구는 인지 과학의 통찰력에서 영감을 받아, "이것이 답인 이유는 무엇인가?"라는 질문이 "무엇이 답인가?"보다 더 쉬울 수 있다는 점에 착안했다. 이는 열린 탐구의 부담을 피하고, 대신 질문과 답을 연결하는 추론을 체계적으로 추적하는 설명적 재구성을 선택하기 때문이다. 본 연구는 LLM이 답을 활용하여 고품질 추론 경로를 도출할 수 있음을 보여준다. 이 현상을 형식화하고, 답을 조건으로 하는 것이 샘플링된 추론 경로의 예상 효용을 입증적으로 증가시켜, 해결 불가능한 문제를 학습 가능한 문제로 변환한다는 것을 증명한다. 이러한 통찰력을 바탕으로, 본 연구는 답 조건 추론을 질문 전용 추론의 변분적 대용으로 사용하는 end-to-end 프레임워크인 RAVR (Reference-Answer-guided Variational Reasoning)을 소개한다. 일반 및 수학 도메인 모두에서 수행된 실험은 강력한 기준선보다 일관된 개선을 보여주었다. 또한 추론 행동을 분석한 결과, RAVR은 망설임을 줄이고, 결론 통합을 강화하며, 문제 특정 전략을 추론에서 촉진하는 것으로 나타났다.