Sign In

Language Models Fail to Introspect About Their Knowledge of Language

Created by
  • Haebom
Category
Empty

저자

Siyuan Song, Jennifer Hu, Kyle Mahowald

개요

본 논문은 21개의 오픈소스 대규모 언어 모델(LLM)을 대상으로, 문법 지식과 단어 예측 두 영역에서 모델의 내적 상태에 대한 자기 성찰 능력(introspection)을 체계적으로 조사한 연구입니다. 모델의 내적 언어 지식은 문자열 확률의 직접 측정을 통해 이론적으로 뒷받침될 수 있으며, 논문에서는 금속 언어적 프롬프트에 대한 모델의 반응이 내적 지식을 얼마나 정확하게 반영하는지 평가합니다. 모델의 프롬프트 응답이 다른 모델의 내적 지식을 넘어 자체 문자열 확률을 얼마나 예측하는지를 측정하는 새로운 자기 성찰 척도를 제안하며, 고도의 작업 정확도에도 불구하고 LLM이 특별한 "자기 접근" 능력을 가지고 있다는 증거를 발견하지 못했습니다. 결론적으로, 프롬프트에 대한 응답과 모델의 언어적 일반화를 혼동해서는 안 된다는 주장에 대한 새로운 증거를 제시합니다.

시사점, 한계점

시사점:
LLM의 자기 성찰 능력에 대한 기존 연구 결과에 대한 재검토의 필요성 제시.
LLM의 금속 언어적 프롬프트 응답과 내적 언어 지식 간의 관계에 대한 심층적인 이해 제공.
LLM의 자기 성찰 능력 평가를 위한 새로운 척도 제안.
프롬프트 응답과 모델의 실제 언어적 일반화를 구분해야 함을 강조.
한계점:
오픈소스 LLM에 국한된 연구 결과.
제안된 자기 성찰 척도의 일반성 및 한계에 대한 추가 연구 필요.
다른 유형의 자기 성찰 능력에 대한 검토 부족.
👍