AdaSTaR: Adaptive Data Sampling for Training Self-Taught Reasoners
Created by
Haebom
저자
Woosung Koh, Wonbeen Oh, Jaein Jang, MinHyung Lee, Hyeongjin Kim, Ah Yeon Kim, Joonkee Kim, Junghyun Lee, Taehyeon Kim, Se-Young Yun
개요
자기 개선 추론 언어 모델(LM)의 훈련 과정에서 필수적인 요소인 자기 학습 추론기(STaR, 또는 RFT)는 무작위 관찰(데이터) 샘플링을 사용하여 훈련된 관찰 데이터의 불균형을 초래하고, 쉬운 예시는 과훈련, 어려운 예시는 과소훈련하는 비효율성을 발생시킵니다. 본 논문에서는 두 가지 적응형 샘플링 원칙, (1) 다양성을 위한 적응형 샘플링: 관찰 데이터 전반의 균형 훈련을 촉진하고, (2) 교육과정을 위한 적응형 샘플링: 모델의 발전하는 능력에 맞춰 데이터의 난이도를 동적으로 조절하는 AdaSTaR 알고리즘을 제시합니다. AdaSTaR은 6개의 벤치마크에서 모두 최고의 테스트 정확도를 달성했으며, 기존 방법들에 비해 평균 58.6%의 훈련 FLOPs를 감소시켰습니다. 이러한 성능 및 효율 향상은 다양한 사전 훈련된 LM과 더 큰 모델에도 일반화되어, 더 효율적이고 효과적인 자기 개선 LM을 위한 길을 열었습니다.
시사점, 한계점
•
시사점:
◦
AdaSTaR 알고리즘은 자기 개선 추론 언어 모델의 훈련 효율성과 정확도를 크게 향상시켰습니다.
◦
다양한 사전 훈련된 LM과 모델 크기에 대해 일반화되는 성능 향상을 보였습니다.
◦
훈련 FLOPs 감소를 통해 컴퓨팅 자원을 효율적으로 사용할 수 있게 되었습니다.
•
한계점:
◦
본 논문에서는 특정 벤치마크와 모델에 대한 결과만 제시되었으며, 다른 종류의 문제나 모델에 대한 일반화 가능성은 추가 연구가 필요합니다.
◦
AdaSTaR 알고리즘의 적응형 샘플링 전략의 세부적인 파라미터 조정에 대한 분석이 부족합니다.