Resa는 기존 언어 모델의 내부 표현을 활용하여 비용 효율적으로 강력한 추론 능력을 이끌어내는 15억 매개변수 규모의 추론 모델 군입니다. 새로운 희소 자동 인코더 조정(SAE-Tuning) 방법을 사용하여 훈련됩니다. SAE-Tuning은 먼저 소스 모델의 추론 능력을 포착하기 위해 SAE를 훈련하고, 이를 사용하여 표준 지도 학습 미세 조정 과정을 안내하여 타겟 모델에서 추론 능력을 유도합니다. 추론 과정을 기록하지 않은 검증된 질문-답변 데이터만 사용하며, RL 후 훈련 전 특정 기본 모델에 적용될 경우 RL 훈련 모델의 추론 성능의 97% 이상을 유지하면서 훈련 비용을 2000배 이상 절감(약 1달러)하고 훈련 시간을 450배 이상 단축(약 20분)합니다. 또한, 가벼운 RL 훈련 모델에 적용하면 (예: 2개의 GPU에서 1시간 이내) AIME24에서 Pass@1 43.33%, AMC23에서 Pass@1 90%와 같은 추론 성능을 추가 비용 약 1달러로 달성합니다. 추출된 추론 능력은 일반화 가능하고 모듈식입니다. 하나의 데이터셋에서 추출된 능력은 더 크고 겹치는 코퍼스에서도 성능을 향상시키며, Qwen 또는 Qwen-Math에서 추출된 능력은 재훈련 없이 테스트 시 R1-Distill 모델에 적용되어 비슷한 성능 향상을 가져옵니다. 광범위한 실험을 통해 이러한 결과를 검증했으며 모든 결과물은 공개 소스로 제공됩니다.