Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Rethinking the effects of data contamination in Code Intelligence

Created by
  • Haebom

저자

Zhen Yang, Hongyi Lin, Yifan He, Jie Xu, Zeyu Sun, Shuo Liu, Pengpeng Wang, Zhongxing Yu, Qingyuan Liang

개요

본 논문은 사전 훈련된 언어 모델(PLM)과 대규모 언어 모델(LLM)의 코드 인텔리전스 작업에서 미세한 데이터 오염의 영향을 체계적으로 실증 연구한 결과를 제시합니다. RoBERTa, GPT-2, LLaMA, StarCoder 등 다양한 모델을 사용하여 코드 번역, 코드 생성, 코드 요약 세 가지 주요 작업에 대해, 입력 전용, 출력 전용, 비쌍, 쌍 오염 등 네 가지 오염 시나리오를 설정하여 실험을 진행했습니다. 실험 결과, PLM의 경우 사전 훈련, 미세 조정, 추론 과정에서는 쌍 오염이 심각한 성능 과대 평가로 이어지지 않지만, 직접 추론이나 소규모 미세 조정에서는 오염 효과가 드러납니다. 반면 LLM은 쌍 오염에 상당한 영향을 받는 것으로 나타났습니다. 다른 오염 시나리오는 PLM과 LLM 모두에 영향을 미치지 않았습니다. 이는 오염이 항상 성능 과대 평가로 이어진다는 기존의 믿음에 도전하는 결과이며, 코드 인텔리전스 모델의 평가 및 배포에 대한 새로운 통찰력을 제공합니다.

시사점, 한계점

시사점:
PLM과 LLM에서 데이터 오염의 영향이 모델 구조 및 훈련 방식에 따라 다르게 나타남을 밝힘.
쌍 오염이 LLM의 성능에 미치는 영향이 PLM보다 훨씬 큼을 확인.
오염이 항상 성능 과대 평가로 이어지지는 않음을 실험적으로 증명.
코드 인텔리전스 모델 평가 및 배포 전략 수립에 중요한 시사점 제공.
한계점:
연구에 사용된 모델과 작업의 종류가 제한적일 수 있음.
실제 환경에서의 데이터 오염 유형과 정도를 완벽하게 반영하지 못할 수 있음.
오염의 종류 및 정도에 따른 영향의 세밀한 분석이 부족할 수 있음.
다양한 규모의 미세 조정에 대한 추가 연구 필요.
👍