본 논문은 오픈 소스 소프트웨어의 취약점 악용 위험 증가에 대응하기 위해, 문맥 인지적 취약점 탐지 (VD)를 위한 온-정책 LLM 강화 학습 프레임워크인 Vulnerability-Adaptive Policy Optimization (VULPO)를 제안합니다. ContextVul 데이터셋을 활용하여 repository-level context 정보를 추출하고, 예측 정확도, 취약점 위치 정확도, 의미적 관련성을 결합한 다차원 보상 구조를 설계하여 포괄적인 문맥적 추론을 유도합니다. 또한, 취약점 사례의 비대칭적 난이도를 해결하고 보상 해킹을 완화하기 위해 레이블 및 샘플 수준 난이도 적응형 보상 스케일링을 구현했습니다. 실험 결과, VULPO-4B는 기존의 prompt engineering 및 off-policy optimization 기반 VD baseline을 크게 능가하며, F1 점수에서 Qwen3-4B보다 85% 향상되었고, DeepSeek-R1-0528과 유사한 성능을 보였습니다.