CODEMENV: Benchmarking Large Language Models on Code Migration
Created by
Haebom
저자
Keyuan Cheng, Xudong Shen, Yihao Yang, Tengyue Wang, Yang Cao, Muhammad Asif Ali, Hanbin Wang, Lijie Hu, Di Wang
개요
본 논문은 대규모 언어 모델(LLM)의 코드 마이그레이션 능력을 평가하기 위한 새로운 벤치마크인 CODEMENV를 소개합니다. CODEMENV는 19개의 Python 및 Java 패키지를 포함하는 922개의 예시로 구성되며, 특정 버전과 호환되지 않는 함수 식별, 함수 정의 변경 감지, 대상 환경에 맞는 코드 적응 등 세 가지 핵심 작업을 다룹니다. 7개의 LLM을 사용한 실험 결과, 평균 pass@1 비율은 26.50%였으며, GPT-4O가 43.84%로 가장 높은 점수를 기록했습니다. 주요 결과로는 LLM이 최신 함수 버전에 더 능숙하며, 레거시 코드 마이그레이션에 도움이 된다는 점과 LLM이 때때로 의도된 마이그레이션 환경과 무관한 함수 변경을 식별하여 논리적 불일치를 보이는 점 등이 있습니다. 데이터셋은 https://github.com/xdshen-ai/Benchmark-of-Code-Migration 에서 이용 가능합니다.