본 논문은 대규모 언어 모델(LLM)이 소프트웨어 개발에 편리성을 제공하지만, 면접 및 과제에서 윤리적 문제를 야기할 수 있다는 점을 지적하며, 코드 작성자가 인간인지 AI 모델인지 판별하는 문제의 중요성을 강조합니다. 이를 위해 CodeLlama 34B, Codestral 22B, Gemini 1.5 Flash를 사용하여 생성된 2,828개의 AI 생성 코드와 4,755개의 인간 작성 Python 코드로 구성된 AIGCodeSet 데이터셋을 제시하고, 기준 검출 방법을 사용한 실험 결과(베이지안 분류기의 우수한 성능)를 공유합니다.