Toward Reliable Biomedical Hypothesis Generation: Evaluating Truthfulness and Hallucination in Large Language Models
Created by
Haebom
저자
Guangzhi Xiong, Eric Xie, Corey Williams, Myles Kim, Amir Hassan Shariatmadari, Sikun Guo, Stefan Bekiranov, Aidong Zhang
개요
본 논문은 대규모 언어 모델(LLM)이 생의학 분야에서 가설 생성에 유용하지만, 생성된 가설의 진실성 평가가 어렵다는 문제점을 제기한다. LLM의 환각 문제로 인해 그럴듯하지만 잘못된 가설이 생성될 수 있으며, 이는 신뢰성을 저해한다. 이러한 문제를 체계적으로 연구하기 위해, 생의학 가설의 진실성을 평가하는 벤치마크 TruthHypo와 가설의 기반 지식을 평가하는 지식 기반 환각 검출기 KnowHD를 제시한다. 실험 결과, LLM은 진실된 가설을 생성하는 데 어려움을 겪는다는 것을 보여주며, KnowHD의 기반 점수가 LLM의 다양한 출력에서 진실된 가설을 걸러내는 효과적인 지표임을 증명한다. 인간 평가 또한 KnowHD가 진실된 가설을 식별하고 과학적 발견을 가속화하는 데 유용함을 검증한다. 데이터와 소스 코드는 https://github.com/Teddy-XiongGZ/TruthHypo 에서 이용 가능하다.