Sign In

LiCoEval: Evaluating LLMs on License Compliance in Code Generation

Created by
  • Haebom
Category
Empty

저자

Weiwei Xu, Kai Gao, Hao He, Minghui Zhou

개요

본 논문은 대규모 언어 모델(LLM)이 생성한 코드의 라이선스 준수 문제를 다룬다. LLM이 저작권이 있는 코드를 생성하면서 라이선스 정보를 제공하지 않아 지적재산권 침해 가능성이 발생하는 문제를 해결하기 위해, LLM이 생성한 코드의 라이선스 정보 정확성을 평가하는 벤치마크 LiCoEval을 제안한다. LiCoEval을 이용하여 14개의 LLM을 평가한 결과, 상위 LLM들조차도 기존 오픈소스 코드와 매우 유사한 코드를 상당한 비율(0.88%~2.01%)로 생성하며, 특히 복사금지 라이선스 코드에 대해 정확한 라이선스 정보를 제공하지 못하는 것으로 나타났다. 이는 AI 지원 소프트웨어 개발에서 라이선스 준수 기능 향상의 시급성을 강조한다.

시사점, 한계점

시사점:
LLM이 생성한 코드의 라이선스 준수 문제의 심각성을 제기하고, 이를 평가하는 벤치마크(LiCoEval)를 제시하였다.
주요 LLM들이 저작권 침해 가능성을 내포하는 코드를 생성하고 라이선스 정보 제공에 실패하는 현황을 밝혔다.
AI 지원 소프트웨어 개발에서 라이선스 준수 기능 향상에 대한 연구 및 개발의 필요성을 강조하였다.
오픈소스 소프트웨어 저작권 보호 및 LLM 사용자의 법적 위험 완화에 기여할 수 있는 기반을 마련하였다.
한계점:
"striking similarity"의 기준 설정에 대한 주관적인 부분이 존재할 수 있다.
평가 대상 LLM의 종류 및 버전에 따라 결과가 달라질 수 있다.
LiCoEval의 평가 기준 및 방법론에 대한 추가적인 검증 및 개선이 필요할 수 있다.
실제 소프트웨어 개발 환경에서의 LLM 라이선스 준수 문제에 대한 추가적인 연구가 필요하다.
👍