Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Transformers Provably Learn Chain-of-Thought Reasoning with Length Generalization

Created by
  • Haebom
Category
Empty

저자

Yu Huang, Zixin Wen, Aarti Singh, Yuejie Chi, Yuxin Chen

개요

본 논문은 인공지능(AI) 추론 능력의 핵심인 문제 해결을 위해 딥러닝 모델이 학습한 추론 패턴을 더 어려운 문제와 더 긴 연쇄적 사고(CoT)에 적용할 수 있는지에 대한 연구를 제시합니다. 특히, 변압기(transformer) 모델이 합성 상태 추적 작업에서 기울기 하강법을 통해 학습하는 것을 이론적으로 분석합니다. 본 논문은 상태 추적 문제의 대수적 구조가 학습된 CoT의 일반화 정도를 어떻게 지배하는지 수학적으로 증명합니다. 또한, 제한된 추론 길이를 가진 변압기의 경우, 재귀적 자기 훈련 방식을 통해 해결 가능한 문제 길이를 점진적으로 확장할 수 있음을 증명합니다.

시사점, 한계점

시사점:
변압기 모델의 추론 길이 일반화에 대한 수학적 증명을 제공합니다.
어텐션 집중 메커니즘을 통해 변압기의 길이 일반화 특성을 규명합니다.
재귀적 자기 훈련 방식을 통해 문제 해결 능력 확장의 가능성을 제시합니다.
$\mathsf{NC}^1$-완전 문제를 CoT를 통해 학습할 수 있음을 보장하는 최초의 최적화 결과를 제공합니다.
한계점:
합성 상태 추적 작업에 대한 분석에 국한됩니다.
$\mathsf{TC}^0 \neq \mathsf{NC}^1$ 추측이 성립한다는 가정 하에 결과를 도출합니다.
👍