Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Inference-Time Scaling for Complex Tasks: Where We Stand and What Lies Ahead

Created by
  • Haebom

저자

Vidhisha Balachandran, Jingya Chen, Lingjiao Chen, Shivam Garg, Neel Joshi, Yash Lara, John Langford, Besmira Nushi, Vibhav Vineet, Yue Wu, Safoora Yousefi

개요

본 논문은 추론 시간 확장(inference-time scaling) 기법이 대규모 언어 모델(LLM)의 복잡한 문제 해결 능력 향상에 미치는 영향을 9개의 최첨단 모델과 8가지 다양한 과제(수학 및 STEM 추론, 일정 계획, NP-hard 문제, 탐색, 공간 추론 등)를 통해 광범위하게 조사합니다. 기존 모델과 추론 시간 확장을 위해 미세 조정된 모델을 비교하며, 반복적인 모델 호출(독립적 또는 순차적 피드백 포함)을 통한 평가 프로토콜을 사용하여 각 모델의 성능 한계와 향후 성능 개선 가능성을 평가합니다. 실험 결과, 추론 시간 확장의 이점은 과제에 따라 다르며 문제 복잡성이 증가함에 따라 감소하는 것으로 나타났습니다. 또한, 토큰 수 증가가 항상 정확도 향상으로 이어지는 것은 아님을 확인했습니다. 완벽한 검증자를 사용한 기존 모델의 다중 독립 실행 결과는 일부 과제에서는 기존 모델이 최첨단 추론 모델의 평균 성능에 근접할 수 있음을 보여주지만, 다른 과제에서는 상당한 성능 차이가 남아 있음을 보여줍니다. 하지만 완벽한 검증자나 강력한 피드백을 통해 추론을 더욱 확장할 경우 모든 모델에서 상당한 성능 향상이 나타나 향후 개선 가능성이 있음을 시사합니다.

시사점, 한계점

시사점:
추론 시간 확장은 일부 과제에서 LLM의 성능을 향상시킬 수 있지만, 그 효과는 과제의 복잡성에 따라 달라짐.
완벽한 검증자 또는 강력한 피드백을 통한 추론 확장은 모든 모델의 성능을 크게 향상시킬 수 있는 잠재력을 보임.
일부 과제에서는 기존 모델이 완벽한 검증자를 통해 최첨단 추론 모델에 근접한 성능을 달성할 수 있음.
단순히 토큰 수를 늘리는 것만으로는 복잡한 문제에 대한 정확도가 항상 향상되는 것은 아님.
한계점:
추론 시간 확장의 효과는 과제의 복잡도에 따라 감소함.
모든 과제에서 기존 모델과 최첨단 추론 모델 간의 성능 차이가 완전히 해소되지 않음.
실험 결과는 특정 모델과 과제에 국한되어 일반화에 한계가 있을 수 있음.
👍