Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

VULPO: Context-Aware Vulnerability Detection via On-Policy LLM Optimization

Created by
  • Haebom
Category
Empty

저자

Youpeng Li, Fuxun Yu, Xinda Wang

VULPO: Context-Aware Vulnerability Detection with Reinforcement Learning

개요

본 논문은 오픈 소스 소프트웨어의 취약점 악용 위험 증가에 대응하기 위해, 문맥 인지적 취약점 탐지 (VD)를 위한 온-정책 LLM 강화 학습 프레임워크인 Vulnerability-Adaptive Policy Optimization (VULPO)를 제안합니다. ContextVul 데이터셋을 활용하여 repository-level context 정보를 추출하고, 예측 정확도, 취약점 위치 정확도, 의미적 관련성을 결합한 다차원 보상 구조를 설계하여 포괄적인 문맥적 추론을 유도합니다. 또한, 취약점 사례의 비대칭적 난이도를 해결하고 보상 해킹을 완화하기 위해 레이블 및 샘플 수준 난이도 적응형 보상 스케일링을 구현했습니다. 실험 결과, VULPO-4B는 기존의 prompt engineering 및 off-policy optimization 기반 VD baseline을 크게 능가하며, F1 점수에서 Qwen3-4B보다 85% 향상되었고, DeepSeek-R1-0528과 유사한 성능을 보였습니다.

시사점, 한계점

시사점:
문맥 인지적 취약점 탐지를 위한 새로운 on-policy LLM 강화 학습 프레임워크 제안.
repository-level context 정보를 활용하는 ContextVul 데이터셋 구축.
다차원 보상 구조 및 난이도 적응형 보상 스케일링을 통한 성능 향상.
기존 방법론 대비 우수한 성능 입증.
한계점:
아직 구체적인 한계점은 논문 요약에서 명시되지 않음. (추가적인 분석 필요)
모델 크기가 성능에 미치는 영향에 대한 추가적인 연구가 필요할 수 있음.
실제 배포 환경에서의 scalability 및 robustness에 대한 검증 필요.
👍