Vintage Code, Modern Judges: Meta-Validation in Low Data Regimes
Created by
Haebom
Category
Empty
저자
Ora Nova Fandina, Gal Amram, Eitan Farchi, Shmulik Froimovich, Raviv Gal, Wesam Ibraheem, Rami Katan, Alice Podolsky, Orna Raz
개요
본 논문은 COBOL, PL/I, REXX와 같은 레거시 언어의 애플리케이션 현대화 과정에서 발생하는 자원 부족 문제를 해결하기 위해, 대규모 언어 모델 (LaaJ)을 활용한 평가 방법론을 제시한다. 특히, 제한적인 인간 평가 데이터 환경에서 LaaJ의 신뢰성을 확보하기 위해 SparseAlign이라는 프레임워크를 제안한다. SparseAlign은 희소한 인간 레이블 데이터를 기반으로 LaaJ의 인간 판단과의 정렬 정도를 평가하며, 랭킹 일관성과 점수 근접성을 동시에 고려하는 새로운 지표를 사용한다. COBOL 코드 설명 분야에 적용된 사례 연구를 통해 실제 평가 시나리오에서의 효용성을 입증한다.