Calibration Across Layers: Understanding Calibration Evolution in LLMs
Created by
Haebom
Category
Empty
저자
Abhinav Joshi, Areeb Ahmad, Ashutosh Modi
개요
대규모 언어 모델(LLM)은 예측 확률과 정답 간의 일치도를 보이는 자체 보정 능력을 갖추고 있다. 본 연구는 네트워크 깊이에 따른 보정의 진화 과정을 분석하여, 모델의 확신이 결정된 후 상위/후반 레이어에서 능동적으로 재보정이 이루어지는 "확신 보정 단계"를 발견했다. 또한, 정확도 저하 없이 보정 지표(ECE, MCE)를 개선하는 잔여 스트림 내 저차원 보정 방향을 확인했다.
시사점, 한계점
•
시사점:
◦
LLM의 보정은 최종 레이어뿐만 아니라 네트워크 전체에서 분산되어 발생하는 현상임을 시사한다.
◦
확신 조절 메커니즘이 LLM 내에서 어떻게 작동하는지에 대한 새로운 통찰력을 제공한다.
◦
잔여 스트림 내 저차원 보정 방향을 통해 보정 성능을 향상시킬 수 있는 가능성을 제시한다.
•
한계점:
◦
MMLU 벤치마크에 대한 분석에 국한되어, 다른 벤치마크 및 모델에 대한 일반화 가능성에 대한 추가 연구가 필요하다.