Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Bench4KE: Benchmarking Automated Competency Question Generation

Created by
  • Haebom

저자

Anna Sofia Lippolis, Minh Davide Ragagni, Paolo Ciancarini, Andrea Giovanni Nuzzolese, Valentina Presutti

개요

대규모 언어 모델(LLM)의 등장으로 지식 엔지니어링(KE) 자동화 연구가 활성화되고 있으며, 특히 LLM 기반의 역량 질문(CQ) 자동 생성 방법 및 도구 개발이 활발하다. 하지만 이러한 도구들의 평가는 표준화되지 않아 방법론적 엄격성이 부족하고 결과의 재현 및 비교가 어렵다. 본 논문은 이러한 문제를 해결하기 위해 KE 자동화를 위한 확장 가능한 API 기반 벤치마킹 시스템인 Bench4KE를 소개한다. 첫 번째 버전은 CQ 자동 생성 도구 평가에 초점을 맞추며, 네 개의 실제 온톨로지 프로젝트에서 얻은 CQ 데이터셋으로 구성된 엄선된 골드 스탠다드를 제공하고, 유사성 측정 지표들을 사용하여 생성된 CQ의 품질을 평가한다. LLM 기반의 네 가지 최신 CQ 생성 시스템에 대한 비교 분석을 통해 향후 연구를 위한 기준을 제시하며, SPARQL 쿼리 생성, 온톨로지 테스트 및 초안 작성과 같은 추가적인 KE 자동화 작업도 수용할 수 있도록 설계되었다. 코드와 데이터셋은 Apache 2.0 라이선스 하에 공개적으로 제공된다.

시사점, 한계점

시사점:
LLM 기반 KE 자동화 도구 평가를 위한 표준화된 벤치마킹 시스템 Bench4KE 제공
실제 온톨로지 프로젝트 기반의 엄선된 골드 스탠다드 데이터셋 제공
다양한 유사성 측정 지표를 활용한 객관적인 CQ 생성 품질 평가
LLM 기반 CQ 생성 시스템들의 비교 분석을 통한 성능 기준 제시
향후 다양한 KE 자동화 작업(SPARQL 쿼리 생성, 온톨로지 테스트 등) 평가를 위한 확장성 제공
공개된 코드와 데이터셋을 통한 연구 재현성 및 비교 가능성 증대
한계점:
현재 CQ 생성에만 초점이 맞춰져 있으며, 다른 KE 자동화 작업에 대한 평가는 향후 확장 계획임.
Bench4KE의 평가 지표 및 골드 스탠다드의 범용성 및 적용 가능성에 대한 추가적인 검증 필요.
평가에 사용된 LLM 기반 시스템의 종류가 제한적이며, 향후 더 다양한 시스템에 대한 평가가 필요.
👍