Sign In

Confidence is Not Competence

Created by
  • Haebom
Category
Empty

저자

Debdeep Sanyal, Manya Pandey, Dhruv Kumar, Saurabh Deshpande, Murari Mandal

개요

대형 언어 모델(LLM)은 자신감과 실제 문제 해결 능력 사이에 괴리가 있는 경우가 많습니다. 본 논문은 사전 생성 평가 단계와 솔루션 실행 단계의 내부 상태 기하학을 분석하여 이러한 분리의 기계론적 설명을 제시합니다. 간단한 선형 프로브는 모델의 내부 "해결 가능성 신념"을 해독하여 모델 제품군 및 수학, 코드, 계획 및 논리 작업에서 일반화되는 잘 정돈된 신념 축을 드러냅니다. 그러나 기하학은 달라서, 신념이 선형적으로 해독 가능하지만 평가 매니폴드는 주성분에서 측정된 높은 선형 유효 차원을 가지는 반면, 후속 추론 추적은 훨씬 낮은 차원 매니폴드에서 진화합니다. 사고에서 행동으로의 이러한 기하학적 복잡성의 급격한 감소는 자신감-능력 격차를 기계론적으로 설명합니다. 신념 축을 따라 표현을 조작하는 인과적 개입은 최종 솔루션을 변경하지 않으므로 복잡한 평가 공간의 선형적 조작이 실행의 제약된 역학을 제어하지 않음을 나타냅니다. 따라서 본 연구는 기하학적으로 복잡한 평가자가 기하학적으로 단순한 실행자를 제공하는 두 시스템 아키텍처를 밝혀냅니다. 이러한 결과는 해독 가능한 신념이 실행 가능한 레버라는 가설에 도전하며, 고차원 평가의 기하학보다는 실행의 절차적 역학을 목표로 하는 개입을 주장합니다.

시사점, 한계점

LLM의 자신감과 실제 능력 간의 괴리 현상을 기하학적 관점에서 설명합니다.
"해결 가능성 신념"을 해독하는 선형 프로브를 개발하고, 이를 통해 모델 간 일반화 가능성을 확인했습니다.
평가 단계와 실행 단계의 기하학적 복잡성 차이를 통해 자신감-능력 격차를 설명합니다.
신념 축을 조작하는 개입이 최종 솔루션에 영향을 미치지 않음을 보였습니다.
두 시스템 아키텍처 (복잡한 평가자, 단순한 실행자)를 제안합니다.
해독 가능한 신념이 항상 실행 가능한 레버는 아님을 시사합니다.
개입은 평가의 기하학보다는 실행의 절차적 역학을 목표로 해야 함을 주장합니다.
👍