Learning to Generate Secure Code via Token-Level Rewards

Created by

Haebom

저자

Jiazheng Quan, Xiaodong Li, Bin Wang, Guo An, Like Liu, Degen Huang, Lin Liu, Chengbin Hou

💡 개요

대규모 언어 모델(LLM)은 코드 생성에 강점을 보이지만 보안 취약점에 취약한 문제를 안고 있습니다. 기존 접근 방식은 고품질 보안 데이터 부족과 거친 강화 학습 보상 신호라는 두 가지 한계를 가지고 있었습니다. 본 논문은 LLM의 자체 반성을 활용하여 실제 취약점으로부터 높은 신뢰도의 복구 쌍을 구축하고, 다양한 암시적 프롬프트를 생성하여 PrimeVul+ 데이터셋을 구축하는 Vul2Safe 프레임워크를 제안합니다. 또한, 토큰 수준 보상을 강화 학습에 도입한 SRCode를 통해 코드 보안을 위한 새로운 훈련 프레임워크를 제시하며, 이를 통해 미세한 보안 패턴을 지속적으로 학습하고 강화할 수 있습니다.

🔑 시사점 및 한계

•

LLM의 자체 반성을 통해 고품질의 안전한 코드 복구 쌍을 자동으로 생성하여 보안 데이터 부족 문제를 해결했습니다.

•

토큰 수준 보상 시스템을 도입하여 미세한 보안 패턴을 효과적으로 학습하고, 코드 보안 최적화를 정밀하게 수행할 수 있습니다.

•

제안된 Vul2Safe 프레임워크와 SRCode 훈련 방식은 다양한 벤치마크에서 생성된 코드의 보안 취약점을 크게 줄이고 전반적인 코드 품질을 향상시키는 것으로 입증되었습니다.

•

본 연구는 LLM 기반 코드 생성의 보안성을 향상시키는 새로운 방향을 제시하지만, 실제 배포 시 발생할 수 있는 복잡하고 예측 불가능한 취약점에 대한 추가적인 연구가 필요합니다.

PDF 보기

Made with Slashpage