Sign In

Stable but Miscalibrated: A Kantian View on Overconfidence from Filters to Large Language Models

Created by
  • Haebom
Category
Empty

저자

Akira Okutomi

개요

본 논문은 칸트의 순수이성 비판을 피드백 안정성 이론으로 재해석하여, 이성을 가능한 경험의 범위 내에서 추론을 유지하는 조절기로 간주한다. 스펙트럼 마진, 조건, 시간적 민감성, 혁신 증폭을 결합한 복합 불안정성 지수(H-Risk)를 통해 이러한 직관을 공식화했다. 선형-가우시안 시뮬레이션에서 높은 H-Risk는 형식적 안정성 하에서도 과신 오류를 예측하며, 명목적 안정성과 인식론적 안정성 간의 격차를 보여준다. 대규모 언어 모델(LLM)에 적용하여, 내부적 취약성과 오조정 또는 환각(날조) 간의 예비적 상관관계를 관찰했으며, 경량 비판 프롬프트가 소규모 테스트에서 보정을 약간 향상시키거나 악화시킬 수 있음을 발견했다. 이러한 결과는 칸트적 자기 제한과 피드백 제어 사이의 구조적 연결을 시사하며, 추론 시스템에서 과신을 진단하고 잠재적으로 완화할 수 있는 원칙적인 렌즈를 제공한다.

시사점, 한계점

칸트 철학을 피드백 제어 이론과 연결하여 추론 시스템의 안정성을 분석하는 새로운 프레임워크 제시.
H-Risk 지표를 통해 추론 시스템의 과신 경향성을 정량화하고 예측 가능성을 제시.
LLM의 내부 취약성과 과신 간의 상관관계를 예비적으로 확인하고, 경량 프롬프트의 효과를 탐구.
소규모 테스트에 국한된 실험 결과, 일반화에 대한 한계 존재.
LLM 모델의 내부 메커니즘에 대한 심층적 분석 부족.
경량 프롬프트의 효과가 제한적이며, 개선 여지가 필요.
👍