Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

A*-Decoding: Token-Efficient Inference Scaling

Created by
  • Haebom

저자

Giannis Chatziveroglou

개요

본 논문은 복잡한 추론 과제에서 언어 모델 성능을 향상시키기 위해 매개변수 확장 대신 추론 시간 확장을 제안합니다. 기존 방법들이 고정된 계산 예산 하에서 강력한 성능 향상을 보여주었지만, 추론 중에 그 예산을 최적으로 활용하는 데는 초점이 부족했습니다. 이 연구는 A* 탐색 알고리즘을 기반으로 하는 탐색 기반 추론 시간 전략인 A*-디코딩을 제시합니다. A*-디코딩은 생성 중에 고품질 추론 경로를 우선 순위화하여 고정된 계산 예산을 최적으로 활용합니다. 언어 모델 디코딩을 부분 해결책의 상태 공간에서 구조화된 탐색으로 구성하고, 외부 프로세스 감독 신호에 의해 안내되는 유망한 연속을 식별하기 위해 A* 전이 모델을 적용합니다. 실험 결과, A*-디코딩은 동등한 계산 예산 하에서 최대 3배 적은 토큰과 30% 적은 PRM 패스를 사용하면서 Best-of-N 및 입자 필터링과 같은 강력한 추론 확장 기준의 성능 수준에 도달합니다. MATH500 및 AIME 2024 벤치마크에서 A*-디코딩을 통해 Llama-3.2-1B-Instruct는 70배 더 큰 Llama-3.1-70B-Instruct의 성능과 일치하고, Qwen3-1.7B는 o1 수준의 추론 정확도에 도달합니다. 이러한 결과는 구조화된 탐색의 힘을 강조하며, 무차별적 샘플링 또는 규모 중심적 이득에 대한 대안을 제공합니다. 본 연구는 신중한 추론 시간 전략이 SLM에서 추론을 향상시키는 방법을 보여주며, 보다 효율적이고 확장 가능한 언어 모델 배포의 미래 발전을 가리킵니다.

시사점, 한계점

시사점:
고정된 계산 예산 내에서 최적의 추론 성능을 달성하는 새로운 A*-디코딩 방법 제시.
기존 방법들보다 적은 토큰과 PRM 패스를 사용하여 동등하거나 더 나은 성능 달성.
소규모 언어 모델의 추론 성능을 대규모 모델 수준으로 향상시킬 가능성 제시.
효율적인 언어 모델 배포를 위한 새로운 전략 제시.
한계점:
A*-디코딩의 성능은 외부 프로세스 감독 신호의 질에 의존적일 수 있음.
특정 유형의 추론 과제에 대한 효과성이 다른 과제에 대한 효과성과 다를 수 있음.
A* 알고리즘의 계산 복잡도가 특정 상황에서 제한 요소가 될 수 있음.
제시된 방법의 일반화 가능성에 대한 추가 연구가 필요함.
👍