본 논문은 대규모 언어 모델(LLM)의 신뢰성 평가를 위한 RDF 기반 프레임워크를 제안합니다. 특히 상충되는 정보에 대한 LLM의 반응을 다국어(독일어, 영어) 환경에서 분석하는 데 초점을 맞춥니다. 완전, 불완전, 상충, 무정보 등 네 가지 맥락 조건에서 모델의 응답을 수집하고, 이를 구조화된 RDF 형태로 표현하여 지식 유출(훈련 데이터에 대한 과도한 의존), 오류 탐지, 다국어 일관성 등을 종합적으로 분석합니다. 소방 안전 분야를 대상으로 한 실험을 통해 맥락 우선순위 및 언어별 성능에 대한 중요한 패턴을 밝히고, 28개 질문 연구에서 모든 평가 측면을 표현하는 데 사용된 어휘가 충분함을 보여줍니다.