Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Automated Validation of LLM-based Evaluators for Software Engineering Artifacts

Created by
  • Haebom

저자

Ora Nova Fandina, Eitan Farchi, Shmulik Froimovich, Rami Katan, Alice Podolsky, Orna Raz, Avi Ziv

개요

본 논문은 소프트웨어 엔지니어링에서 코드 생성, 검토, 평가에 점점 더 많이 사용되는 대규모 언어 모델(LLM)의 신뢰성 있는 평가자로서의 자리매김이 여전히 과제임을 지적합니다. 기존의 자동화된 방법은 코드 품질의 미세한 차이를 구별하지 못하고, 사람에 의한 평가는 비용이 많이 들고 주관적이며 확장성이 떨어지기 때문입니다. 이에 본 논문에서는 LLM 기반 평가자를 다양한 소프트웨어 엔지니어링 작업에 걸쳐 벤치마킹하기 위한 자동화 프레임워크인 REFINE(Ranking Evaluators for Fine-grained Nuanced Evaluation)을 제시합니다. REFINE은 계층적 데이터셋 생성 모듈과 평가자 테스터 모듈로 구성되며, 점진적으로 품질이 저하되는 아티팩트를 자동으로 합성하고, 각 평가자 구성의 순위가 기대 순위와 얼마나 일치하는지 측정하여 정량화합니다. 특히, 사용자가 저하의 세분성을 조정하여 평가자 구성을 점진적으로 개선할 수 있다는 점이 특징입니다. IBM의 내부 개발 워크플로에 통합되어 COBOL 코드 생성, 변환, 요약 작업에 적용되었으며, 일부 코딩 작업에서 일치 점수를 0.7 미만에서 0.9 이상으로 향상시키는 LLM 기반 평가자 구성을 식별하는 데 성공했습니다.

시사점, 한계점

시사점:
LLM 기반 코드 평가자의 신뢰성 향상을 위한 자동화된 벤치마킹 프레임워크 REFINE 제시.
REFINE을 통해 미세한 품질 차이까지 구별하는 평가자 구성을 식별하고 최적화 가능.
산업 현장(IBM)에서 실제 데이터를 사용하여 검증, 모델 훈련 및 배포 결정 지원에 활용 가능성 입증.
LLM 기반 평가자의 정확도 향상으로 소프트웨어 엔지니어링 효율성 증대 가능성 제시.
한계점:
REFINE의 성능은 사용되는 LLM과 데이터셋에 의존적일 수 있음.
COBOL에 집중된 사례 연구로, 다른 프로그래밍 언어로의 일반화 가능성에 대한 추가 연구 필요.
현재는 IBM 내부 시스템에 통합된 시스템으로, 외부 시스템과의 호환성 및 확장성에 대한 검토 필요.
다양한 유형의 소프트웨어 엔지니어링 작업에 대한 일반화 가능성에 대한 추가 연구 필요.
👍