Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Input-Time Scaling

Created by
  • Haebom

저자

Rapheal Huang (Yuming), Weilong Guo

개요

본 논문은 기존 대규모 언어 모델(LLM)의 데이터 및 훈련 확장, 추론 시간 확장 방식을 보완하는 새로운 확장 패러다임인 입력 시간 확장(Input-Time Scaling)을 제시합니다. 훈련 및 테스트 과정에서 LLM의 메타 지식을 활용하여 다양한 전략으로 입력을 개선하는 방법을 연구합니다. 특히, 훈련과 테스트 과정에서 질의 전략을 통합적으로 적용해야 최고 성능을 달성하는 '훈련-테스트 공동 설계(train-test co-design)' 현상을 발견하였습니다. 흥미롭게도, 데이터 품질이 낮은 것으로 여겨지는 데이터셋이 더 나은 성능을 보이는 경우도 있으며, 무작위로 선택한 1,000개의 예제만으로도 최고 성능을 달성할 수 있음을 확인했습니다. 이는 '쓰레기가 들어가면 쓰레기가 나온다(garbage in, garbage out)'는 일반적인 가정과 상반되는 결과입니다. 더 많은 데이터로 훈련한다고 해서 항상 성능이 향상되는 것은 아니며, 데이터 크기 확장에 대한 기존의 직관을 재검토해야 함을 시사합니다. Qwen2.5-32B-Instruct 모델을 사용한 실험에서 AIME24 및 AIME25에서 최첨단 성능(76.7% pass@1)을 달성했으며, 세 개의 모델 다수결 투표를 통해 AIME25에서 80%의 성능을 달성했습니다. DeepSeek-R1-Distill-Qwen-32B를 기반으로 AIME24 90.0%, AIME25 80.0%의 성능을 달성했습니다. 재현성을 높이고 추가 연구를 지원하기 위해 데이터셋, 데이터 파이프라인, 평가 결과 및 체크포인트를 오픈소스로 공개할 예정입니다.

시사점, 한계점

시사점:
입력 시간 확장(Input-Time Scaling)이라는 새로운 LLM 확장 패러다임 제시
훈련-테스트 공동 설계(train-test co-design) 현상 발견
데이터 품질에 대한 기존의 직관과 상반되는 결과 도출 (저품질 데이터셋의 우수한 성능)
'Less is More' 현상과의 호환성 확인 (소량의 데이터로도 고성능 달성 가능)
AIME24 및 AIME25에서 최첨단 성능 달성
데이터셋, 코드, 결과 공개를 통한 연구 재현성 및 추가 연구 지원
한계점:
오픈소스 공개가 아직 완료되지 않음
입력 시간 확장 전략의 일반화 가능성에 대한 추가 연구 필요
'훈련-테스트 공동 설계' 현상의 이론적 설명 부족
다양한 LLM 및 데이터셋에 대한 추가 실험 필요
👍