Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Prompting Test-Time Scaling Is A Strong LLM Reasoning Data Augmentation

Created by
  • Haebom

저자

Sondos Mahmoud Bsharat, Zhiqiang Shen

개요

본 연구는 LLM의 추론 능력을 향상시키기 위한 새로운 추론 시점 데이터 증강 전략인 Prompting Test-Time Scaling (P-TTS)을 제안합니다. P-TTS는 단 90개의 수동으로 선택된 추론 인스턴스를 활용하여, 시험 시간에 체계적인 지시 프롬프트 강도를 통해 예시 증강을 다양하게 변화시킵니다. Qwen-2.5 모델을 P-TTS 데이터로 미세 조정하여 AIME2024 & 25, MATH500, GPQA-Diamond와 같은 다양한 수학적 추론 벤치마크에서 기존의 경쟁 모델보다 우수한 성능을 보였습니다. 또한, P-TTS는 Gaokao, Kaoyan, OlympiadBench, AMC23, GradeSchoolMath, Minerva의 도메인 외부 추론 벤치마크에서도 제로샷 일반화 정확도를 향상시켰습니다.

시사점, 한계점

시사점:
P-TTS는 적은 양의 데이터로 LLM의 추론 능력을 효과적으로 향상시킬 수 있습니다.
시험 시간 스케일링을 통해 추론 패턴의 잠재 공간을 효과적으로 탐색합니다.
리소스 제약적인 환경이나 빠르게 변화하는 도메인에서 LLM 추론을 이끌어내는 실용적이고 비용 효율적인 방법입니다.
AIME2024 & 25, MATH500, GPQA-Diamond에서 기존 모델보다 높은 성능을 보였습니다.
제로샷 일반화 정확도를 향상시켰습니다.
한계점:
논문에 명시된 한계점은 없음.
👍