Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Revisiting Pre-trained Language Models for Vulnerability Detection

Created by
  • Haebom
Category
Empty

저자

Youpeng Li, Weiliang Qi, Xuyu Wang, Fuxun Yu, Xinda Wang

개요

사전 훈련된 언어 모델(PLM)의 급속한 발전은 다양한 코드 관련 작업에 유망한 결과를 보여주었지만, 실제 취약점 탐지 능력은 여전히 중요한 과제입니다. 본 논문은 취약점 탐지(VD)를 위한 PLM에 대한 기존 연구의 일반적인 문제점을 재검토하고, 정확한 라벨링, 다양한 취약점 유형 및 다양한 프로젝트를 특징으로 하는 고품질 데이터 세트에 대한 18개의 PLM의 정확하고 광범위한 평가를 수행합니다. 구체적으로, 파인 튜닝 및 프롬프트 엔지니어링 하에서 PLM의 성능을 비교하고, 다양한 훈련 및 테스트 설정에서 효과와 일반화 가능성을 평가하며, 일련의 교란에 대한 견고성을 분석합니다.

시사점, 한계점

코드의 구문 및 의미 패턴을 포착하도록 설계된 사전 훈련 작업이 포함된 PLM이 일반적인 PLM 및 대규모 코드 코퍼스에서만 사전 훈련되거나 파인 튜닝된 PLM보다 더 나은 성능을 보입니다.
복잡한 종속성이 있는 취약점 탐지, 코드 정규화 및 추상화로 인한 교란 처리, 의미를 보존하는 취약한 코드 변환 식별과 같은 실제 시나리오에서 어려움이 있습니다.
PLM의 제한된 컨텍스트 윈도우로 인한 잘림 현상이 상당한 수의 라벨링 오류를 유발할 수 있으며, 이는 이전 연구에서 간과되었습니다.
실제 시나리오에서 모델 성능에 대한 철저한 평가의 중요성을 강조하고, 현실적인 VD 애플리케이션을 위한 PLM의 효과를 향상시키기 위한 향후 방향을 제시합니다.
👍