Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Dynamic Benchmarking of Reasoning Capabilities in Code Large Language Models Under Data Contamination

Created by
  • Haebom

저자

Simin Chen, Pranav Pusarla, Baishakhi Ray

개요

본 논문은 코드 대규모 언어 모델(Code LLMs)의 추론 능력을 효과적이고 투명하게 벤치마킹하기 위한 새로운 방법론인 \tool을 제안합니다. 기존의 벤치마킹 방식은 공개적으로 이용 가능한, 사람이 만든 고정된 데이터셋에 크게 의존하여 데이터 오염에 취약하다는 한계를 가지고 있습니다. \tool은 씨앗 프로그래밍 문제를 바탕으로, 여러 에이전트를 사용하여 핵심 논리를 변경하지 않고 문맥을 추출하고 수정하여 의미적으로 동등한 변형들을 생성하는 동적 데이터 생성 방식을 도입합니다. 21개의 Code LLMs와 두 개의 씨앗 데이터셋을 이용한 실험 결과, \tool은 오염 위험 하에서도 추론 능력을 효과적으로 벤치마킹하고, 다양한 문제 세트를 생성하여 일관되고 신뢰할 수 있는 평가를 보장함을 보여줍니다.

시사점, 한계점

시사점:
기존 Code LLM 벤치마킹의 데이터 오염 문제를 효과적으로 해결하는 새로운 방법론 제시
동적 데이터 생성 방식을 통해 더욱 다양하고 견고한 벤치마킹 가능
다수의 Code LLMs에 대한 실험적 검증을 통해 \tool의 효과성 입증
한계점:
\tool의 에이전트 설계 및 동적 데이터 생성 방식의 일반화 가능성에 대한 추가 연구 필요
다양한 프로그래밍 언어 및 문제 유형에 대한 \tool의 적용성 검증 필요
씨앗 데이터셋의 선택이 결과에 미치는 영향에 대한 추가 분석 필요
👍