본 논문은 대규모 언어 모델(LLM)의 소프트웨어 엔지니어링 작업(코드 생성, 버그 탐지 및 수정 등) 성능 평가에 사용되는 버그 벤치마크의 데이터 유출 문제를 다룹니다. 널리 사용되는 여러 벤치마크에서 LLM의 데이터 유출 가능성을 체계적으로 평가하기 위해 벤치마크 구성 요소의 훈련 데이터셋 포함 여부, 음의 로그 우도, n-gram 정확도 등 다양한 지표를 활용했습니다. 그 결과, codegen-multi와 같은 특정 모델은 Defects4J와 같은 널리 사용되는 벤치마크에서 상당한 기억 효과를 보이는 반면, LLaMa 3.1과 같이 더 큰 데이터셋으로 훈련된 최신 모델은 유출 징후가 제한적임을 확인했습니다.