본 논문은 검색 증강 생성(RAG)을 사용하는 대규모 언어 모델(LLM)이 기후 관련 장문의 기술 문서 접근성을 높여 연구자, 정책 입안자 및 일반 대중에게 귀중한 지식을 제공할 수 있는 잠재력을 지적합니다. 이러한 접근 방식은 검색된 구절을 추가적인 맥락으로 사용하여 사실적 환각을 완화하는 데 도움이 될 수 있지만, 모델의 출력이 이러한 구절에 충실한지 여부에 따라 효과가 달라집니다. 따라서 본 논문은 이러한 설정에서 다양한 모델의 충실성을 자동으로 평가하는 방법을 탐구합니다. 특히 기후 과학에 특화된 대규모 언어 모델인 ClimateGPT에 초점을 맞춰, 지시어 미세 조정의 어떤 요소가 모델의 충실성에 영향을 미치는지 조사합니다. 모델의 훈련 데이터에서 충실하지 않은 하위 집합을 제외함으로써, 본 논문은 ClimateGPT Faithful+를 개발합니다. 자동 측정 기준에 따르면, ClimateGPT Faithful+는 지원되는 원자적 주장에서 충실성을 30%에서 57%로 향상시킵니다.