본 연구는 추론 모델의 자기 개선을 위해 학습 및 테스트 시점에서 작동하는 새로운 방법론인 '자가 훈련 검증(Self-Trained Verification, STV)'을 제안한다. STV는 모델이 스스로 생성한 오류를 참조 솔루션과 비교하여 학습함으로써 검증자의 정확도를 향상시키고, 이를 통해 테스트 시점의 V-R(Verification-Refinement) 루프 성능과 학습 시점의 자기 훈련 효율성을 모두 개선한다. 제안된 방법은 특히 어려운 수학 및 과학적 추론 문제에서 상당한 성능 향상을 달성했다.