Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Language Models Fail to Introspect About Their Knowledge of Language

Created by
  • Haebom

저자

Siyuan Song, Jennifer Hu, Kyle Mahowald

개요

본 논문은 21개의 오픈소스 대규모 언어 모델(LLM)을 대상으로 문법 지식과 단어 예측 두 영역에서 자기 성찰 능력(introspection)을 체계적으로 조사한 연구입니다. 모델의 내부 언어 지식은 문자열 확률의 직접 측정으로 이론적으로 뒷받침될 수 있다는 점을 고려하여, 금속 언어적 프롬프트에 대한 모델의 응답이 내부 지식을 얼마나 정확하게 반영하는지 평가했습니다. 모델의 프롬프트 응답이 자체 문자열 확률을 예측하는 정도를 측정하는 새로운 자기 성찰 지표를 제안하고, 유사한 내부 지식을 가진 다른 모델의 예측을 초과하는지 평가했습니다. 그 결과, 금속 언어적 프롬프트와 확률 비교 모두 높은 작업 정확도를 달성했지만, LLM이 특권적인 "자기 접근"을 가지고 있다는 증거는 발견하지 못했습니다. 다양한 오픈소스 모델을 광범위하게 평가하고 모델 유사성을 통제함으로써, LLM은 자기 성찰을 할 수 없으며, 프롬프트 응답을 모델의 언어적 일반화와 혼동해서는 안 된다는 주장에 대한 새로운 증거를 제시합니다.

시사점, 한계점

시사점: LLM의 자기 성찰 능력에 대한 체계적인 연구를 통해 LLM이 자기 성찰을 하지 못한다는 것을 밝혔습니다. 프롬프트 응답을 모델의 내부 언어 지식과 단순히 동일시해서는 안 된다는 점을 강조합니다. 제안된 새로운 자기 성찰 측정 지표는 LLM의 자기 성찰 능력을 평가하는 데 유용한 도구가 될 수 있습니다.
한계점: 본 연구는 오픈소스 LLM에만 국한되어 있으며, 폐쇄형 LLM의 자기 성찰 능력에 대해서는 추가 연구가 필요합니다. 문법 지식과 단어 예측 두 영역에만 초점을 맞추었으므로, 다른 영역에서의 자기 성찰 능력에 대한 추가 연구가 필요합니다.
👍