Sign In

Metastable Dynamics of Chain-of-Thought Reasoning: Provable Benefits of Search, RL and Distillation

Created by
  • Haebom
Category
Empty

저자

Juno Kim, Denny Wu, Jason Lee, Taiji Suzuki

개요

본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 주요 패러다임으로, 검증자 또는 보상 모델에 대한 검색에 더 많은 추론 시간 연산을 할당하는 것을 연구합니다. 연쇄 사고(CoT) 생성을 준안정 마르코프 과정으로 보고, 쉬운 추론 단계는 밀집 연결 클러스터를, 어려운 추론 단계는 드문, 낮은 확률의 클러스터 간 연결을 만든다는 것을 보여줍니다. 이러한 틀에서, 드문 연결을 보상하는 검색 프로토콜이 예상 단계 수를 줄여 CoT를 개선한다는 것을 증명합니다. 또한, 사전 학습된 그래프의 지역 정보로 모델이 제한될 때 추론 능력의 한계를 설정하고, 검색으로 얻은 정보를 사용하여 더 나은 추론 모델을 얻을 수 있음을 보여줍니다. 구체적으로, 정책 경사 방법을 통해 사전 학습된 모델을 직접 미세 조정하여 드문 연결을 선호하도록 할 수 있으며, 추론 역학의 압축된 준안정 표현을 더 작고 효율적인 모델로 증류할 수 있습니다.

시사점, 한계점

시사점:
CoT 생성을 준안정 마르코프 과정으로 모델링하여 추론 과정을 분석적으로 이해하는 새로운 프레임워크를 제시합니다.
드문 연결(어려운 추론 단계)을 보상하는 검색 프로토콜이 추론 효율성을 향상시킨다는 것을 이론적으로 증명합니다.
검색으로 얻은 정보를 활용하여 사전 학습 모델의 미세 조정 및 효율적인 경량 모델 증류 방법을 제시합니다.
한계점:
제안된 방법의 실제 성능은 다양한 LLM과 추론 작업에 대한 실험적 평가를 통해 검증되어야 합니다.
준안정 마르코프 과정 모델의 적용 가능성과 한계에 대한 추가적인 연구가 필요합니다.
드문 연결을 정의하고 식별하는 방법의 일반화 가능성에 대한 추가적인 연구가 필요합니다.
👍