Sign In

Dynamic Benchmarking of Reasoning Capabilities in Code Large Language Models Under Data Contamination

Created by
  • Haebom
Category
Empty

저자

Simin Chen, Pranav Pusarla, Baishakhi Ray

개요

본 논문은 코드 대규모 언어 모델(Code LLMs)의 추론 능력을 효과적이고 투명하게 벤치마킹하는 방법의 필요성을 강조한다. 기존의 벤치마킹 방식은 공개적으로 이용 가능한, 사람이 만든 데이터셋에 크게 의존하며, 이러한 고정된 벤치마크 데이터셋의 광범위한 사용은 벤치마킹 과정을 정적으로 만들어 데이터 오염에 취약하게 만든다. 본 논문에서는 데이터 오염 가능성 하에서 Code LLMs을 평가하기 위한 새로운 벤치마킹 세트인 \tool을 제안한다. \tool은 시드 프로그래밍 문제를 기반으로, 여러 에이전트를 사용하여 핵심 로직을 변경하지 않고 문맥을 추출하고 수정하여 의미적으로 동등한 변형을 생성한다. 동적 데이터 생성 방법을 도입하고 21개의 Code LLMs에 걸쳐 두 개의 시드 데이터셋에 대한 실험 연구를 수행한다. 결과는 \tool이 오염 위험 하에서 추론 능력을 효과적으로 벤치마킹하는 동시에 일관되고 신뢰할 수 있는 평가를 보장하기 위해 다양한 문제 세트를 생성함을 보여준다.

시사점, 한계점

시사점:
Code LLMs의 추론 능력 평가를 위한 새로운 벤치마킹 방법론 \tool 제시.
기존 방식의 한계점인 데이터 오염 문제 해결에 기여.
동적 데이터 생성 방법을 통해 더욱 다양하고 견고한 평가 가능.
21개의 Code LLMs에 대한 실험적 검증을 통해 \tool의 효과성 확인.
한계점:
\tool의 성능은 사용된 에이전트 및 시드 데이터셋에 의존적일 수 있음.
다양한 종류의 데이터 오염에 대한 일반화 가능성 검증 필요.
\tool의 구현 및 사용의 복잡성에 대한 추가적인 연구 필요.
실험에 사용된 Code LLMs의 종류와 수가 더욱 확장될 필요가 있음.
👍