본 논문은 Retrieval-Augmented Generation (RAG)과 Reinforcement Learning from Verifiable Rewards (RLVR)을 통합한 새로운 프레임워크인 UR$^2$ (Unified RAG and Reasoning)을 제안합니다. 기존 RAG와 RLVR 방법론이 개별적으로 발전되어 상호 연관성이 부족하고 특정 작업에 한정된다는 점을 지적하며, UR$^2$는 어려움에 따라 검색을 선택적으로 활용하는 difficulty-aware curriculum training과 도메인 특정 오프라인 코퍼스와 LLM 생성 요약을 결합하는 하이브리드 지식 접근 전략을 통해 검색과 추론 간의 동적 조정을 가능하게 합니다. Qwen-2.5-3/7B와 LLaMA-3.1-8B를 기반으로 구축된 UR$^2$는 다양한 작업(개방형 질문 응답, MMLU-Pro, 의학 및 수학 추론)에서 기존 RAG 및 RL 방법보다 성능이 뛰어나며, GPT-4o-mini 및 GPT-4.1-mini와 비슷한 성능을 달성합니다. 모든 코드, 모델 및 데이터는 깃허브에 공개되었습니다.