Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

AIGCodeSet: A New Annotated Dataset for AI Generated Code Detection

Created by
  • Haebom

저자

Basak Demirok, Mucahid Kutlu

개요

본 논문은 대규모 언어 모델(LLM)이 소프트웨어 개발에 편리성을 제공하지만, 면접 및 과제에서 윤리적 문제를 야기할 수 있다는 점을 지적하며, 코드 작성자가 인간인지 AI 모델인지 판별하는 문제의 중요성을 강조합니다. 이를 위해 CodeLlama 34B, Codestral 22B, Gemini 1.5 Flash를 사용하여 생성된 2,828개의 AI 생성 코드와 4,755개의 인간 작성 Python 코드로 구성된 AIGCodeSet 데이터셋을 제시하고, 기준 검출 방법을 사용한 실험 결과(베이지안 분류기의 우수한 성능)를 공유합니다.

시사점, 한계점

시사점:
AI 생성 코드와 인간 작성 코드를 구분하는 데 도움이 되는 새로운 데이터셋 AIGCodeSet을 제공합니다.
다양한 LLM을 사용하여 생성된 코드를 포함하여 데이터셋의 다양성을 확보했습니다.
베이지안 분류기가 AI 생성 코드와 인간 작성 코드를 효과적으로 구분하는 방법임을 제시합니다.
한계점:
현재까지 제시된 베이지안 분류기의 성능이 실제 환경에서 얼마나 일반화될 수 있는지에 대한 추가적인 검증이 필요합니다.
AIGCodeSet 데이터셋의 크기가 더욱 확장될 필요가 있습니다.
다양한 프로그래밍 언어를 포함하는 데이터셋 확장이 필요합니다.
특정 LLM에 편향된 데이터셋일 가능성이 있으며, 다양한 LLM과 코딩 스타일을 고려한 더욱 포괄적인 데이터셋 개발이 필요합니다.
👍