Sign In

AIGCodeSet: A New Annotated Dataset for AI Generated Code Detection

Created by
  • Haebom
Category
Empty

저자

Basak Demirok, Mucahid Kutlu

개요

본 논문에서는 AI 모델이 생성한 코드와 사람이 작성한 코드를 구별하는 문제에 대해 다룹니다. CodeLlama 34B, Codestral 22B, Gemini 1.5 Flash를 사용하여 2,828개의 AI 생성 Python 코드와 4,755개의 사람이 작성한 Python 코드로 구성된 AIGCodeSet 데이터셋을 제시합니다. 또한, 기본적인 탐지 방법을 사용한 실험 결과를 공유하며, 베이지안 분류기가 다른 모델보다 성능이 우수함을 보여줍니다.

시사점, 한계점

시사점:
AI 생성 코드와 사람이 작성한 코드를 구별하기 위한 새로운 데이터셋 AIGCodeSet을 제공합니다.
다양한 AI 모델을 사용하여 생성된 코드를 포함하여 데이터셋의 다양성을 확보했습니다.
기존 탐지 방법들의 성능을 비교 분석하고, 베이지안 분류기의 우수성을 확인했습니다.
AI 생성 코드 탐지 분야의 연구 발전에 기여할 수 있습니다.
한계점:
현재 사용된 탐지 방법은 베이지안 분류기에 국한되어 있으며, 더욱 다양한 탐지 기법의 비교 분석이 필요합니다.
AIGCodeSet 데이터셋의 크기가 더욱 확장될 필요가 있습니다.
특정 AI 모델에 편향된 데이터셋일 가능성이 존재하며, 다양한 AI 모델과 프로그래밍 언어를 포함하는 더욱 포괄적인 데이터셋 구성이 필요합니다.
실제 현장 상황을 완벽히 반영하지 못할 수 있습니다.
👍