언어 모델이 건강 관련 질문에 대한 답을 얻기 위해 문맥 정보를 어떻게 사용하는지, 상반된 문맥에 의해 응답이 어떻게 영향을 받는지 평가합니다. 920개의 고유한 인스턴스로 구성된 HealthContradict 데이터셋을 사용하여, 언어 모델이 길고 상반된 생의학적 문맥에 대해 추론하는 능력을 평가합니다. 이 데이터셋은 건강 관련 질문, 과학적 증거에 의해 뒷받침되는 사실적 답변, 그리고 상반된 입장을 제시하는 두 개의 문서를 포함합니다. 정확한, 부정확한, 또는 상반된 문맥을 포함한 여러 프롬프트 설정을 고려하여 모델 출력에 미치는 영향을 측정합니다. HealthContradict는 기존 의료 질문 응답 평가 벤치마크보다 언어 모델의 문맥적 추론 능력을 더 잘 구별합니다. 실험 결과, 미세 조정된 생의학 언어 모델의 강점은 사전 훈련으로부터 얻은 매개변수적 지식뿐만 아니라 정확한 문맥을 활용하고 부정확한 문맥에 저항하는 능력에 있습니다.