Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Language Models Fail to Introspect About Their Knowledge of Language

Created by
  • Haebom
Category
Empty

저자

Siyuan Song, Jennifer Hu, Kyle Mahowald

개요

본 논문은 21개의 오픈소스 대규모 언어 모델(LLM)을 대상으로, 문법 지식과 단어 예측 두 영역에서 자기 성찰 능력의 출현 여부를 체계적으로 조사합니다. 모델의 내부 언어 지식은 문자열 확률의 직접 측정으로 이론적으로 뒷받침될 수 있다는 점을 중요하게 고려하여, 금속 언어 프롬프트에 대한 모델의 응답이 내부 지식을 얼마나 정확하게 반영하는지 평가합니다. 모델의 프롬프트 응답이 다른 모델의 내부 지식을 넘어서 자체 문자열 확률을 예측하는 정도를 측정하는 새로운 자기 성찰 척도를 제안합니다. 금속 언어 프롬프트와 확률 비교 모두 높은 작업 정확도를 보이지만, LLM이 특권적인 "자기 접근"을 가지고 있다는 증거는 발견하지 못했습니다. 결론적으로, 모델이 자기 성찰을 할 수 있다는 최근 결과에 의문을 제기하고, 프롬프트에 대한 응답을 모델의 언어적 일반화와 혼동해서는 안 된다는 주장에 대한 새로운 증거를 제시합니다.

시사점, 한계점

시사점: LLM의 자기 성찰 능력에 대한 기존 연구 결과에 대한 재검토와 새로운 관점 제시. 금속 언어 프롬프트 응답과 모델의 내부 언어 지식 간의 관계에 대한 심층적인 이해 증진. LLM의 해석 가능성 향상을 위한 새로운 측정 방법 제시.
한계점: 오픈소스 LLM에 대한 연구만 수행되었으므로, 폐쇄형 LLM에 대한 일반화에는 제한이 있음. 제안된 자기 성찰 척도의 보편성 및 일반화 가능성에 대한 추가 연구 필요. LLM의 자기 성찰 능력 부재에 대한 다른 설명 가능성에 대한 추가 조사 필요.
👍