# Quantifying Hallucinations in Language Language Models on Medical Textbooks

### 저자

Brandon C. Colelough, Davis Bartels, Dina Demner-Fushman

### 💡 개요

본 연구는 대규모 언어 모델(LLM)이 의학 교과서를 기반으로 한 질의응답에서 얼마나 자주 환각(hallucination, 사실과 다르거나 근거 없는 답변)을 생성하는지 정량적으로 평가합니다. LLaMA-70B-Instruct 모델을 대상으로 한 실험 결과, 19.7%의 답변에서 환각이 관찰되었음에도 불구하고 98.8%의 답변이 최대의 그럴듯함을 보였습니다. 또한, 다른 모델들을 비교한 두 번째 실험에서는 환각 발생률이 낮을수록 유용성 점수가 높았으며, 임상 전문의들은 모델 답변에 대해 높은 일치도를 보였습니다.

### 🔑 시사점 및 한계

- 현재 LLM은 의학 분야에서 감독 없이 독립적으로 배포하기에 부적합하며, 환각 현상이 심각한 문제임을 시사합니다.

- 인간 전문가의 감독이 필수적이며, 이는 비용 상승의 주요 요인이 될 수 있음을 보여줍니다.

- 낮은 환각 발생률과 높은 유용성 점수 간의 상관관계가 존재할 가능성을 제시합니다.

- 본 연구는 특정 개방형 LLM과 제한된 수의 의학 교과서 문헌을 기반으로 하므로, 다양한 LLM과 더 광범위한 의학 자료에 대한 추가 연구가 필요합니다.

[PDF 보기](https://arxiv.org/pdf/2603.09986)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
