Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

HealthContradict: Evaluating Biomedical Knowledge Conflicts in Language Models

Created by
  • Haebom
Category
Empty

저자

Boya Zhang, Alban Bornet, Rui Yang, Nan Liu, Douglas Teodoro

개요

언어 모델이 건강 관련 질문에 대한 답을 얻기 위해 문맥 정보를 어떻게 사용하는지, 상반된 문맥에 의해 응답이 어떻게 영향을 받는지 평가합니다. 920개의 고유한 인스턴스로 구성된 HealthContradict 데이터셋을 사용하여, 언어 모델이 길고 상반된 생의학적 문맥에 대해 추론하는 능력을 평가합니다. 이 데이터셋은 건강 관련 질문, 과학적 증거에 의해 뒷받침되는 사실적 답변, 그리고 상반된 입장을 제시하는 두 개의 문서를 포함합니다. 정확한, 부정확한, 또는 상반된 문맥을 포함한 여러 프롬프트 설정을 고려하여 모델 출력에 미치는 영향을 측정합니다. HealthContradict는 기존 의료 질문 응답 평가 벤치마크보다 언어 모델의 문맥적 추론 능력을 더 잘 구별합니다. 실험 결과, 미세 조정된 생의학 언어 모델의 강점은 사전 훈련으로부터 얻은 매개변수적 지식뿐만 아니라 정확한 문맥을 활용하고 부정확한 문맥에 저항하는 능력에 있습니다.

시사점, 한계점

HealthContradict 데이터셋을 사용하여 언어 모델의 문맥 추론 능력을 평가했습니다.
정확한 문맥을 활용하고 부정확한 문맥에 저항하는 언어 모델의 능력을 확인했습니다.
기존 의료 질문 응답 벤치마크보다 더 나은 구별력을 제공합니다.
연구의 구체적인 한계점은 명시되지 않았습니다.
👍