Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

The Illusion of Procedural Reasoning: Measuring Long-Horizon FSM Execution in LLMs

Created by
  • Haebom
Category
Empty

저자

Mahdi Samiei, Mahdi Mansouri, Mahdieh Soleymani Baghshah

개요

대규모 언어 모델(LLM)은 추론 문제에서 놀라운 성과를 거두었지만, 다단계, 규칙 기반 계산을 수행하는 절차적 추론 능력이 불분명하다. 본 논문은 LLM의 절차적 추론 능력을 평가하기 위한 해석 가능한 프레임워크인 유한 상태 머신(FSM) 실행을 제시한다. 모델은 명시적인 FSM 정의를 받고 입력 작업에 따라 단계별로 실행하며, 여러 턴에 걸쳐 상태 일관성을 유지해야 한다. 이 작업은 세계 지식이 필요 없이 결정론적 변환 규칙을 충실하게 적용하는 것만 요구하므로, 모델의 내부 절차적 충실도를 직접적으로 검사한다.

시사점, 한계점

FSM 기반 평가는 LLM의 절차적 추론 능력을 투명하게 평가할 수 있는 프레임워크를 제공한다.
모델은 작업 지평선 또는 분기 복잡성이 증가함에 따라 체계적인 성능 저하를 보인다.
규칙 검색에 높은 분기 계수가 포함될 때, 기억 범위를 길게 유지하는 것보다 모델의 성능이 훨씬 떨어진다.
더 큰 모델은 지역적 정확도는 향상되지만, 중간 단계를 명시적으로 외부화하도록 프롬프트하지 않으면 다단계 추론에서 취약성을 보인다.
본 연구는 LLM의 알고리즘적 신뢰성을 이해하고 개선하기 위한 엄격한 실험적 기반을 제공한다.
👍