Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Beyond Semantics: The Unreasonable Effectiveness of Reasonless Intermediate Tokens

Created by
  • Haebom
Category
Empty

저자

Karthik Valmeekam, Kaya Stechly, Vardhan Palod, Atharva Gundawar, Subbarao Kambhampati

개요

본 논문은 대규모 추론 모델의 Chain of Thought (CoT)가 실제로 어떻게 모델 성능에 영향을 미치는지에 대한 연구를 수행한다. 특히, 형식적으로 검증 가능한 추론 흔적(reasoning trace)을 사용하여 변환기 모델을 처음부터 학습시키는 통제된 연구를 통해, end-user semantics가 추론 흔적에 미치는 영향을 조사한다. 모델이 정확한 흔적을 사용하여 학습되었음에도 불구하고, 유효하지 않은 추론 흔적을 생성할 수 있음을 발견했다. 또한, 부패된 흔적(corrupted traces)으로 학습된 모델이 정확한 흔적으로 학습된 모델과 유사한 성능을 보이며, out-of-distribution 작업에서 더 나은 일반화를 보였다. GRPO-기반 RL 후속 학습이 흔적의 유효성에 미치는 영향과, 추론 흔적 길이가 문제의 계산 복잡성을 반영하는지에 대한 연구 결과도 제시한다.

시사점, 한계점

Chain of Thought(CoT)가 모델 성능 향상에 기여하지만, 중간 단계의 흔적이 모델의 내부 추론 과정을 투명하게 반영하는 것은 아닐 수 있다.
정확한 흔적으로 학습된 모델조차도 유효하지 않은 추론 흔적을 생성할 수 있다.
부패된 흔적으로 학습된 모델도 좋은 성능을 보일 수 있으며, 일반화 성능이 더 좋을 수도 있다.
GRPO-기반 RL 후속 학습은 해결 정확도를 높이지만, 흔적의 유효성은 향상시키지 못한다.
추론 흔적의 길이가 문제의 계산 복잡성을 반영하지 않을 수 있다.
중간 단계의 토큰이나 "Chain of Thought"가 예측 가능한 추론 행동을 반영하거나 유도한다고 단정하기 어렵다.
인간적인 행동이나 알고리즘적 행동을 나타내는 증거로 추론 흔적을 지나치게 해석하는 것을 경계해야 한다.
👍