대규모 언어 모델(LLMs)의 등장으로 지식 엔지니어링(KE) 자동화 연구가 활성화될 기회가 생겼으며, LLM 기반의 역량 질문(Competency Questions, CQs) 자동 생성 방법 및 도구 개발 노력이 증가하고 있습니다. 하지만 이러한 도구들의 평가는 표준화되지 않아 방법론적 엄격성을 저해하고 결과의 재현 및 비교를 어렵게 합니다. 본 논문에서는 이러한 문제를 해결하기 위해 KE 자동화를 위한 확장 가능한 API 기반 벤치마킹 시스템인 Bench4KE를 소개합니다. 첫 번째 버전은 자동으로 CQs를 생성하는 도구 평가에 중점을 두고 있으며, 네 개의 실제 온톨로지 프로젝트에서 얻은 CQ 데이터셋으로 구성된 엄선된 골드 스탠다드를 제공합니다. 생성된 CQ의 품질을 평가하기 위해 다양한 유사성 측정 기준을 사용하며, LLM 기반의 네 가지 최근 CQ 생성 시스템에 대한 비교 분석을 통해 향후 연구를 위한 기준을 제시합니다. Bench4KE는 SPARQL 쿼리 생성, 온톨로지 테스트 및 초안 작성과 같은 추가적인 KE 자동화 작업도 수용하도록 설계되었으며, 코드와 데이터셋은 Apache 2.0 라이선스에 따라 공개적으로 제공됩니다.