본 논문은 전문가 지식을 논리적 추론 시스템에 통합하는 대규모 언어 모델(LLM)의 효과를 평가하기 위한 새로운 프레임워크인 ExKLoP를 소개합니다. 특히 제조업체 권장 작동 범위와 같은 전문가 지식을 자동화된 모니터링 시스템에 직접 통합할 수 있는 엔지니어링 분야에서 유용합니다. 전문가 검증 단계를 모방하여 범위 확인 및 제약 조건 유효성 검사와 같은 작업을 통해 시스템의 안전성과 신뢰성을 보장합니다. 이 접근 방식은 LLM이 생성한 논리 규칙을 체계적으로 평가하여 이러한 중요한 유효성 검사 작업에서 구문 유창성과 논리적 정확성을 모두 평가합니다. 또한 코드 실행 결과를 기반으로 반복적인 피드백 루프를 통해 모델의 자가 수정 능력을 탐구합니다. ExKLoP는 130개의 엔지니어링 전제, 950개의 프롬프트 및 해당 유효성 검사 지점으로 구성된 확장 가능한 데이터 세트를 제공합니다. 이는 포괄적인 벤치마킹을 가능하게 하는 동시에 작업 복잡성과 실험의 확장성을 제어할 수 있게 합니다. Llama3, Gemma3, Codestral 및 QwenCoder를 포함한 다양한 LLM에 대한 광범위한 경험적 평가를 수행하기 위해 합성 데이터 생성 방법론을 활용합니다. 결과는 대부분의 모델이 거의 완벽한 구문적으로 정확한 코드를 생성하고 전문가 지식을 정확한 코드로 변환하는 데 강력한 성능을 보임을 보여줍니다. 동시에 대부분의 LLM이 거의 완벽한 구문 출력을 생성하지만 논리 규칙을 올바르게 구현하는 능력과 자기 개선 능력은 모델마다 다릅니다. 전반적으로 ExKLoP는 자가 수정 시스템에 효과적인 모델을 선택하는 것을 간소화하는 동시에 발생하는 오류의 유형을 명확하게 설명하는 강력한 평가 플랫폼 역할을 합니다.