Let Me Think! A Long Chain-of-Thought Can Be Worth Exponentially Many Short Ones
Created by
Haebom
저자
Parsa Mirtaheri, Ezra Edelman, Samy Jelassi, Eran Malach, Enric Boix-Adsera
개요
본 논문은 대규모 언어 모델의 추론 성능 향상을 위한 추론 시점 계산의 최적 배분 문제를 다룹니다. 특히, 순차적 확장(예: 더 긴 사고 과정)과 병렬적 확장(예: 여러 짧은 사고 과정의 다수결 투표) 중 어떤 전략이 더 효율적인지에 대한 질문에 답하고자 합니다. 논문에서는 그래프 연결성 문제와 같이 특정 어려운 그래프 분포 설정에서 순차적 확장이 병렬적 확장보다 기하급수적으로 더 나은 성능을 보임을 이론적 및 실험적으로 증명합니다. 여러 종류의 언어 모델(그래프 연결성 문제를 위해 다양한 사고 과정 전략으로 학습된 모델 및 대규모 추론 모델 포함)을 사용하여 실험을 진행했습니다.
시사점, 한계점
•
시사점:
◦
그래프 연결성 문제와 같이 특정 문제 설정에서는 순차적 추론 확장이 병렬적 추론 확장보다 훨씬 효율적임을 밝힘.
◦
추론 시점 계산의 최적 배분 전략은 문제의 특성에 따라 달라짐을 시사.
◦
다양한 언어 모델과 사고 과정 전략을 활용하여 실험적 증거를 제시.
•
한계점:
◦
그래프 연결성 문제에 국한된 연구 결과로, 다른 유형의 문제에 대한 일반화 가능성은 제한적.
◦
특정 그래프 분포에 대한 성능 비교이므로, 다른 그래프 분포에서는 결과가 달라질 수 있음.