# Are the Hidden States Hiding Something? Testing the Limits of Factuality-Encoding Capabilities in LLMs

### 저자

Giovanni Servedio, Alessandro De Bellis, Dario Di Palma, Vito Walter Anelli, Tommaso Di Noia

### 개요

본 논문은 대규모 언어 모델(LLM)의 사실적 환각(factual hallucinations) 문제를 해결하기 위한 연구이다.  기존 연구들이 합성 데이터에 의존하여 현실성이 부족한 한계를 지적하며, 보다 현실적이고 도전적인 데이터셋을 생성하는 전략을 제시한다.  구체적으로, 표 형태의 데이터에서 사실/거짓 문장을 추출하는 방법과 질의응답 데이터를 활용하여 LLM 의존적인 사실/거짓 데이터셋을 생성하는 절차를 소개한다. 두 개의 오픈소스 LLM을 분석하여 기존 연구 결과의 일부를 검증하지만, LLM 생성 데이터셋으로의 일반화는 어려움을 보임을 밝히고, 향후 LLM의 사실성 연구 및 효과적인 평가를 위한 실질적인 지침을 제공한다.

### 시사점, 한계점

- **시사점:**

    - 기존 연구의 한계를 극복하여 더욱 현실적인 데이터셋을 생성하는 방법 제시.

    - LLM 생성 데이터셋에서의 사실성 평가의 어려움을 밝힘으로써 향후 연구 방향 제시.

    - LLM의 사실성 평가를 위한 실질적인 지침 제공.

- **한계점:**

    - 분석에 사용된 LLM의 종류가 제한적임.

    - LLM 생성 데이터셋으로의 일반화에 어려움이 있음.

    - 제시된 데이터셋 생성 방법의 확장성 및 일반화 가능성에 대한 추가 연구 필요.

[PDF 보기](https://arxiv.org/pdf/2505.16520)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).