# Epistemic Observability in Language Models

### 저자

Tony Mason, Vaastav Anand

### 💡 개요

본 연구는 언어 모델이 가장 확신에 찬 답변을 할 때 오히려 사실을 왜곡하는 경향이 있음을 발견했습니다. 텍스트만으로는 모델의 정직한 응답과 그럴듯한 거짓 응답을 구별할 수 없다는 수학적 증명을 통해, 기존의 텍스트 기반 모니터링 방식으로는 한계가 있음을 밝혔습니다. 이를 극복하기 위해 토큰별 엔트로피와 같은 계산 부산물을 활용하는 새로운 인터페이스를 제안하여, 모델의 정확성을 신뢰성 있게 파악할 수 있음을 입증했습니다.

### 🔑 시사점 및 한계

- 언어 모델의 자기 보고 신뢰도가 오히려 정확도와 반비례하는 현상이 보편적임을 보여주어, 모델의 신뢰성에 대한 근본적인 의문을 제기합니다.

- 텍스트만으로는 모델의 거짓말을 탐지하는 것이 불가능함을 수학적으로 증명함으로써, 현재의 언어 모델 평가 및 모니터링 방식의 한계를 명확히 합니다.

- 토큰별 엔트로피와 같은 내부 계산 정보를 활용하는 새로운 접근 방식이 기존 텍스트 기반 방법보다 월등히 뛰어난 성능을 보임을 입증하여, 향후 언어 모델의 신뢰성 확보를 위한 실질적인 해결책을 제시합니다.

- 본 연구에서 제시하는 해결책은 '비용 표면(cost surface)'이라는 모델 구축자를 위한 실용적인 가이드라인을 제공하지만, 이는 언어 모델 자체의 근본적인 '기능적' 한계를 해결하는 것이 아니라 '관찰'의 한계를 극복하는 데 초점을 맞추고 있습니다. 즉, 언어 모델이 스스로 진실을 말하도록 만드는 것이 아니라, 진실을 말하는지 아닌지를 더 잘 '인지'하는 데 중점을 둡니다.

[PDF 보기](https://arxiv.org/pdf/2603.20531)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).