본 논문은 대규모 언어 모델(LLM)의 개방형 장문 추론 과제에 대한 강화 학습 프레임워크인 직접 추론 최적화(DRO)를 제안합니다. 기존의 검증 가능한 보상 신호 부재 문제를 해결하기 위해, 모델의 이전 사고 과정 추론의 영향을 반영하는 주요 토큰을 선택적으로 식별하고 강조하는 새로운 보상 신호인 추론 반영 보상(R3)을 사용합니다. R3는 최적화되는 동일한 모델을 내부적으로 사용하여 계산되므로 완전히 자체 포함된 학습 설정이 가능합니다. 또한, 개방형 추론 과제에 대한 R3 기반의 동적 데이터 필터링 전략을 도입하여 비용을 절감하면서 성능을 향상시킵니다. ParaRev(장문 단락 수정 과제)와 FinQA(수학 중심 QA 벤치마크) 두 가지 데이터셋에서 DRO가 강력한 기준 모델보다 성능이 우수함을 보여줍니다.