본 논문은 대규모 언어 모델(LLM)의 환각 문제를 해결하기 위한 새로운 평가 방법론과 오픈소스 라이브러리 knowornot을 제시합니다. RAG(Retrieval-Augmented Generation) 설정에서도 LLM이 지식 베이스 외부의 질문에 대해 환각하는 문제를 해결하고자, 수동 주석 없이 LLM의 지식 베이스 외부(OOKB) 강건성을 체계적으로 평가하는 방법론을 개발했습니다. knowornot은 통합 API, 모듈식 아키텍처, 엄격한 데이터 모델링, 사용자 정의 파이프라인 도구 등 네 가지 주요 기능을 제공하며, 정부 정책에 대한 질문 답변 챗봇을 대상으로 하는 PolicyBench라는 벤치마크를 통해 유용성을 입증합니다. knowornot의 소스 코드는 공개되어 있습니다.