본 논문은 task-specific verifier 없이 전문가 시연만으로 강력한 추론 능력을 학습하는 방법을 제시한다. RARO (Relativistic Adversarial Reasoning Optimization)는 정책(생성자)과 상대주의적 비평가(판별자) 간의 적대적 상호 작용을 통해 Inverse Reinforcement Learning을 사용한다. 정책은 전문가의 답변을 모방하고, 비평가는 정책과 전문가 답변을 비교 및 구별하도록 학습된다. RARO는 정책과 비평가를 RL을 통해 지속적으로 함께 훈련시키며, 안정적인 학습을 위한 주요 기술을 식별한다.