본 논문은 대규모 언어 모델(LLM)의 환각(hallucination) 문제, 특히 검색 증강 생성(RAG) 설정에서 지식 기반 외부 질문에 대한 응답 시 발생하는 환각 문제를 해결하기 위한 새로운 평가 방법론을 제시합니다. 기존의 수동 주석 방식 대신, 자동화된 평가를 가능하게 하는 오픈소스 라이브러리 knowornot을 소개하며, 이를 통해 LLM의 지식 기반 외부(OOKB) 강건성을 체계적으로 평가할 수 있음을 보여줍니다. knowornot은 사용자 정의 평가 데이터 및 파이프라인 개발을 지원하며, 통합 API, 모듈식 아키텍처, 엄격한 데이터 모델링, 다양한 사용자 정의 도구 등의 기능을 제공합니다. 정부 정책 관련 질의응답 챗봇 네 가지를 포함하는 PolicyBench라는 벤치마크를 개발하여 knowornot의 유용성을 입증합니다. knowornot의 소스 코드는 깃허브에서 공개됩니다.