Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Resa: Transparent Reasoning Models via SAEs

Created by
  • Haebom

저자

Shangshang Wang, Julian Asilis, Omer Faruk Akgul, Enes Burak Bilgin, Ollie Liu, Deqing Fu, Willie Neiswanger

개요

Resa는 기존 언어 모델의 내부 표현을 활용하여 비용 효율적으로 강력한 추론 능력을 이끌어내는 15억 매개변수 규모의 추론 모델 군입니다. 새로운 희소 자동 인코더 조정(SAE-Tuning) 방법을 사용하여 훈련됩니다. SAE-Tuning은 먼저 소스 모델의 추론 능력을 포착하기 위해 SAE를 훈련하고, 이를 사용하여 표준 지도 학습 미세 조정 과정을 안내하여 타겟 모델에서 추론 능력을 유도합니다. 추론 과정을 기록하지 않은 검증된 질문-답변 데이터만 사용하며, RL 후 훈련 전 특정 기본 모델에 적용될 경우 RL 훈련 모델의 추론 성능의 97% 이상을 유지하면서 훈련 비용을 2000배 이상 절감(약 1달러)하고 훈련 시간을 450배 이상 단축(약 20분)합니다. 또한, 가벼운 RL 훈련 모델에 적용하면 (예: 2개의 GPU에서 1시간 이내) AIME24에서 Pass@1 43.33%, AMC23에서 Pass@1 90%와 같은 추론 성능을 추가 비용 약 1달러로 달성합니다. 추출된 추론 능력은 일반화 가능하고 모듈식입니다. 하나의 데이터셋에서 추출된 능력은 더 크고 겹치는 코퍼스에서도 성능을 향상시키며, Qwen 또는 Qwen-Math에서 추출된 능력은 재훈련 없이 테스트 시 R1-Distill 모델에 적용되어 비슷한 성능 향상을 가져옵니다. 광범위한 실험을 통해 이러한 결과를 검증했으며 모든 결과물은 공개 소스로 제공됩니다.

시사점, 한계점

시사점:
기존 모델의 내부 표현을 활용하여 비용 효율적으로 추론 능력 향상.
SAE-Tuning을 통해 RL 훈련 비용과 시간을 획기적으로 절감.
추론 능력의 일반화 및 모듈화 가능성 제시.
저렴한 비용으로 높은 추론 성능 달성 가능성.
모든 결과물 공개를 통한 재현성 및 확장성 확보.
한계점:
SAE-Tuning의 성능은 기본 모델에 따라 달라질 수 있음.
특정 유형의 추론 문제에만 효과적일 가능성 존재.
일반화 및 모듈화 가능성에 대한 추가적인 연구 필요.
대규모 데이터셋에 대한 적용성 및 확장성 검증 필요.
👍