대규모 언어 모델(LLM)의 등장으로 지식 엔지니어링(KE) 자동화 연구가 활성화되고 있으며, 특히 LLM 기반의 역량 질문(CQ) 자동 생성 방법 및 도구 개발이 활발하다. 하지만 이러한 도구들의 평가는 표준화되지 않아 방법론적 엄격성이 부족하고 결과의 재현 및 비교가 어렵다. 본 논문은 이러한 문제를 해결하기 위해 KE 자동화를 위한 확장 가능한 API 기반 벤치마킹 시스템인 Bench4KE를 소개한다. 첫 번째 버전은 CQ 자동 생성 도구 평가에 초점을 맞추며, 네 개의 실제 온톨로지 프로젝트에서 얻은 CQ 데이터셋으로 구성된 엄선된 골드 스탠다드를 제공하고, 유사성 측정 지표들을 사용하여 생성된 CQ의 품질을 평가한다. LLM 기반의 네 가지 최신 CQ 생성 시스템에 대한 비교 분석을 통해 향후 연구를 위한 기준을 제시하며, SPARQL 쿼리 생성, 온톨로지 테스트 및 초안 작성과 같은 추가적인 KE 자동화 작업도 수용할 수 있도록 설계되었다. 코드와 데이터셋은 Apache 2.0 라이선스 하에 공개적으로 제공된다.