Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

From Confidence to Collapse in LLM Factual Robustness

Created by
  • Haebom

저자

Alina Fastowski, Bardh Prenkaj, Gjergji Kasneci

개요

본 논문은 대규모 언어 모델(LLM)의 사실적 지식의 견고성을 평가하는 새로운 지표인 사실적 견고성 점수(FRS)를 제안합니다. 기존의 평가 방법들이 주로 성능 기반 지표에 집중하고 프롬프트 변화에 따른 외부적 영향에 초점을 맞춘 반면, 본 논문에서는 토큰 분포 엔트로피와 온도 스케일링 민감도를 분석하여 생성 과정 자체에서 사실적 견고성을 측정하는 원칙적인 접근 방식을 제시합니다. 5개의 LLM과 3개의 폐쇄형 질의응답 데이터셋(SQuAD, TriviaQA, HotpotQA)을 사용한 실험을 통해, 모델 크기에 따라 사실적 견고성이 크게 다르며(소형 모델 0.76, 대형 모델 0.93), 불확실성이 증가함에 따라 정확도가 약 60% 감소함을 보여줍니다. 이를 통해 엔트로피와 온도 스케일링이 사실적 정확도에 미치는 영향을 분석하고, 향후 더욱 견고한 지식 유지 및 검색 기능을 갖춘 모델 개발의 기반을 마련합니다.

시사점, 한계점

시사점:
LLM의 사실적 지식 견고성을 평가하는 새로운 지표인 FRS를 제시.
생성 과정 자체에 초점을 맞춘 새로운 평가 방식 제시.
모델 크기와 사실적 견고성 간의 상관관계를 밝힘.
불확실성 증가에 따른 정확도 저하 현상을 규명.
향후 LLM의 지식 유지 및 검색 기능 향상에 기여할 수 있는 기반 마련.
한계점:
제시된 FRS 지표의 일반화 가능성에 대한 추가 연구 필요.
다양한 유형의 LLM과 데이터셋에 대한 추가 실험 필요.
FRS 지표 개선 및 보완을 위한 추가 연구 필요.
👍