Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Mode-Conditioning Unlocks Superior Test-Time Scaling

Created by
  • Haebom
Category
Empty

저자

Chen Henry Wu, Sachin Goyal, Aditi Raghunathan

개요

병렬 샘플링은 테스트 시간 확장에 상당한 이점을 제공하지만, 모델이 몇 가지 모드에 집중하고 반복 샘플이 동일한 실수를 생성하는 다양성 붕괴로 인해 효과가 크게 제한됩니다. 본 논문에서는 전문가 모델 또는 모드별 접두사를 사용하여 테스트 시간 계산을 추론 모드에 명시적으로 할당하는 ModC(mode-conditioning) 프레임워크를 제안합니다. ModC는 0.5B에서 7B까지의 모델 패밀리와 크기에 걸쳐 제어된 그래프 검색 작업 및 대규모 추론 벤치마크에서 확장을 일관되게 개선합니다. OpenThoughts에서 ModC로 Qwen2.5-7B를 미세 조정하면 표준 훈련보다 4배의 효율성 이점을 얻는 동시에 달성 가능한 최대 Pass@k가 향상됩니다. 또한, 기울기 클러스터링을 통해 명시적인 모드 레이블 없이 ModC를 사용할 수 있으며, NuminaMath와 같은 데이터 세트에서 최대 10%의 이점을 얻을 수 있습니다. 마지막으로, ModC가 강화 학습(RL)을 개선하고 다양성을 유도하는 RL 방식을 더욱 향상시킬 수 있음을 보여줍니다. 이러한 결과는 표준 훈련이 데이터의 다양성을 충분히 활용하지 못하며, ModC가 테스트 시간 확장에서 다양성의 모든 이점을 활용하기 위한 간단하고 효과적인 해결책을 제공함을 보여줍니다.

시사점, 한계점

ModC 프레임워크는 병렬 샘플링의 다양성 붕괴 문제를 해결하여 테스트 시간 확장의 효율성을 향상시킵니다.
ModC는 그래프 검색 작업 및 대규모 추론 벤치마크에서 모델 크기에 관계없이 일관된 성능 향상을 보입니다.
Qwen2.5-7B 모델을 사용하여 OpenThoughts에서 4배의 효율성 향상과 Pass@k 향상을 달성했습니다.
기울기 클러스터링을 통해 명시적인 모드 레이블 없이 ModC를 적용할 수 있습니다.
ModC는 강화 학습(RL)의 성능을 개선하고 다양성 유도 RL 방식을 향상시킬 수 있습니다.
본 논문은 표준 훈련이 데이터의 다양성을 충분히 활용하지 못한다는 것을 시사합니다.
본 논문에서는 ModC의 특정 구현 방법 및 복잡성에 대한 자세한 내용은 언급되지 않았습니다.
다양한 모델 아키텍처 및 데이터 세트에 대한 ModC의 일반화 가능성에 대한 추가 연구가 필요할 수 있습니다.
👍