Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CODEMENV: Benchmarking Large Language Models on Code Migration

Created by
  • Haebom

저자

Keyuan Cheng, Xudong Shen, Yihao Yang, Tengyue Wang, Yang Cao, Muhammad Asif Ali, Hanbin Wang, Lijie Hu, Di Wang

개요

본 논문은 대규모 언어 모델(LLM)의 코드 마이그레이션 능력을 평가하기 위한 새로운 벤치마크인 CODEMENV를 소개합니다. CODEMENV는 19개의 Python 및 Java 패키지를 포함하는 922개의 예시로 구성되며, 특정 버전과 호환되지 않는 함수 식별, 함수 정의 변경 감지, 대상 환경에 맞는 코드 적응 등 세 가지 핵심 작업을 다룹니다. 7개의 LLM을 사용한 실험 결과, 평균 pass@1 비율은 26.50%였으며, GPT-4O가 43.84%로 가장 높은 점수를 기록했습니다. 주요 결과로는 LLM이 최신 함수 버전에 더 능숙하며, 레거시 코드 마이그레이션에 도움이 된다는 점과 LLM이 때때로 의도된 마이그레이션 환경과 무관한 함수 변경을 식별하여 논리적 불일치를 보이는 점 등이 있습니다. 데이터셋은 https://github.com/xdshen-ai/Benchmark-of-Code-Migration 에서 이용 가능합니다.

시사점, 한계점

시사점:
LLM의 코드 마이그레이션 능력 평가를 위한 새로운 벤치마크 CODEMENV 제시.
LLM의 코드 마이그레이션 성능에 대한 실험적 분석 결과 제공.
LLM이 최신 함수 버전에 더 능숙하다는 사실 발견.
CODEMENV 데이터셋 공개를 통한 추가 연구 촉진.
한계점:
평균 pass@1 비율이 26.50%로 LLM의 코드 마이그레이션 능력이 아직 부족함을 시사.
LLM이 논리적 불일치를 보이는 경우가 있음.
현재 Python과 Java 패키지만 포함, 다른 프로그래밍 언어 지원 필요.
더욱 다양하고 복잡한 코드 마이그레이션 시나리오 추가 필요.
👍