본 논문은 추론 시간 확장(inference-time scaling) 기법이 대규모 언어 모델(LLM)의 복잡한 문제 해결 능력 향상에 미치는 영향을 9개의 최첨단 모델과 8가지 다양한 과제(수학 및 STEM 추론, 일정 계획, NP-hard 문제, 탐색, 공간 추론 등)를 통해 광범위하게 조사합니다. 기존 모델과 추론 시간 확장을 위해 미세 조정된 모델을 비교하며, 반복적인 모델 호출(독립적 또는 순차적 피드백 포함)을 통한 평가 프로토콜을 사용하여 각 모델의 성능 한계와 향후 성능 개선 가능성을 평가합니다. 실험 결과, 추론 시간 확장의 이점은 과제에 따라 다르며 문제 복잡성이 증가함에 따라 감소하는 것으로 나타났습니다. 또한, 토큰 수 증가가 항상 정확도 향상으로 이어지는 것은 아님을 확인했습니다. 완벽한 검증자를 사용한 기존 모델의 다중 독립 실행 결과는 일부 과제에서는 기존 모델이 최첨단 추론 모델의 평균 성능에 근접할 수 있음을 보여주지만, 다른 과제에서는 상당한 성능 차이가 남아 있음을 보여줍니다. 하지만 완벽한 검증자나 강력한 피드백을 통해 추론을 더욱 확장할 경우 모든 모델에서 상당한 성능 향상이 나타나 향후 개선 가능성이 있음을 시사합니다.
시사점, 한계점
•
시사점:
◦
추론 시간 확장은 일부 과제에서 LLM의 성능을 향상시킬 수 있지만, 그 효과는 과제의 복잡성에 따라 달라짐.
◦
완벽한 검증자 또는 강력한 피드백을 통한 추론 확장은 모든 모델의 성능을 크게 향상시킬 수 있는 잠재력을 보임.
◦
일부 과제에서는 기존 모델이 완벽한 검증자를 통해 최첨단 추론 모델에 근접한 성능을 달성할 수 있음.
◦
단순히 토큰 수를 늘리는 것만으로는 복잡한 문제에 대한 정확도가 항상 향상되는 것은 아님.