강화 학습(RL)이 추론 능력에 기여하는 방식에 대한 연구로, 새로운 기술을 합성하는지 아니면 기존 행동을 증폭하는지에 대한 논쟁을 다룬다. 복잡한 작업인 보완적 추론을 통해 이 문제를 탐구하며, 내부 파라미터 지식과 외부 컨텍스트 정보를 통합해야 한다. 인간 전기 데이터의 제어된 합성 데이터 세트를 사용하여, 파라미터 추론(내부 지식)과 컨텍스트 추론(외부 정보)이라는 두 가지 원자적 기술로 분리한다. I.I.D., Composition, Zero-shot 설정을 통해 일반화 성능을 평가하며, RL이 단순 증폭기가 아닌 추론 합성기 역할을 함을 발견한다.