Sign In

Detection of LLM-Paraphrased Code and Identification of the Responsible LLM Using Coding Style Features

Created by
  • Haebom
Category
Empty

저자

Shinwoo Park, Hyundong Jin, Jeong-won Cha, Yo-Sub Han

개요

본 논문은 대규모 언어 모델(LLM)을 이용한 코드 생성으로 인한 지적 재산권 침해 문제에 대한 해결책을 제시한다. LLM이 기존 코드를 변형하여 저작권 침해 가능성을 높이는 문제를 해결하기 위해, LLM이 생성한 코드가 원본 코드를 표절한 것인지 판별하는 작업과 표절에 사용된 LLM을 식별하는 작업을 제안한다. 다양한 LLM을 사용하여 인간이 작성한 코드와 LLM이 변형한 코드 쌍으로 구성된 LPcode 데이터셋을 구축하고, 명명 규칙, 코드 구조, 가독성 등 코딩 스타일의 차이를 통계적으로 분석하여 LPcodedec라는 탐지 방법을 개발하였다. LPcodedec는 두 가지 작업에서 기존 최고 성능 기준 모델보다 F1 점수를 각각 2.64%와 15.17% 향상시키고, 속도는 각각 1,343배와 213배 향상시켰다. 코드와 데이터는 깃허브에 공개되어 있다.

시사점, 한계점

시사점:
LLM을 이용한 코드 표절 탐지 분야에 대한 새로운 접근 방식 제시
LPcode 데이터셋 및 LPcodedec 탐지 방법을 통해 코드 표절 문제 해결에 기여
효율적인 표절 탐지 및 LLM 식별 방법 개발 (속도 향상)
코딩 스타일 차이를 이용한 표절 탐지의 효과성 검증
한계점:
LPcode 데이터셋의 규모 및 다양성에 대한 추가적인 연구 필요
다양한 LLM과 더욱 정교한 표절 기법에 대한 LPcodedec의 일반화 성능 검증 필요
실제 상용 코드에 대한 LPcodedec의 성능 평가 필요
👍