Decoding Answers Before Chain-of-Thought: Evidence from Pre-CoT Probes and Activation Steering

Created by

Haebom

저자

Kyle Cox, Darius Kianersi, Adria Garriga-Alonso

💡 개요

이 논문은 대규모 언어 모델(LLM)의 해석 가능성을 높이는 데 중요한 역할을 하는 Chain-of-Thought(CoT) 추론이 실제 모델의 의사 결정 과정을 얼마나 충실히 반영하는지에 대한 의문을 제기합니다. 연구진은 CoT 생성 이전에 이미 모델이 답을 결정한다는 증거를 제시하며, 이를 뒷받침하기 위해 마지막 토큰 이전의 활성화 값을 학습시킨 선형 탐침(linear probe)으로 대부분의 작업에서 0.9 AUC로 최종 답을 예측할 수 있음을 보여줍니다. 더 나아가, 탐침 방향으로 활성화를 조종하면 50% 이상의 경우에서 모델의 답이 바뀌는 인과 관계를 확인했습니다.

🔑 시사점 및 한계

•

CoT는 LLM의 해석 가능성을 위한 유용한 도구일 수 있으나, 모델이 답을 결정한 후에 CoT를 생성하는 경우가 많으므로 CoT의 추론 과정이 항상 모델의 실제 의사 결정 과정을 반영하는 것은 아닙니다.

•

CoT 생성 이전의 활성화 값을 조작함으로써 모델의 답을 변경할 수 있다는 점은 CoT가 단순히 사후적인 설명이 아니라 모델의 의사 결정 과정에 영향을 줄 수 있음을 시사합니다.

•

CoT 생성 이전에 잘못된 신념을 가지고 있을 때, 이를 교정하지 않고 CoT를 생성하는 경우 "비함축(non-entailment)" 또는 "환각(confabulation)"과 같은 바람직하지 않은 결과로 이어질 수 있습니다.

PDF 보기

Made with Slashpage