Sign In

Learning to Generate Secure Code via Token-Level Rewards

Created by
  • Haebom
Category
Empty

μ €μž

Jiazheng Quan, Xiaodong Li, Bin Wang, Guo An, Like Liu, Degen Huang, Lin Liu, Chengbin Hou

πŸ’‘ κ°œμš”

λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)은 μ½”λ“œ 생성에 강점을 λ³΄μ΄μ§€λ§Œ λ³΄μ•ˆ 취약점에 μ·¨μ•½ν•œ 문제λ₯Ό μ•ˆκ³  μžˆμŠ΅λ‹ˆλ‹€. κΈ°μ‘΄ μ ‘κ·Ό 방식은 κ³ ν’ˆμ§ˆ λ³΄μ•ˆ 데이터 λΆ€μ‘±κ³Ό 거친 κ°•ν™” ν•™μŠ΅ 보상 μ‹ ν˜ΈλΌλŠ” 두 κ°€μ§€ ν•œκ³„λ₯Ό κ°€μ§€κ³  μžˆμ—ˆμŠ΅λ‹ˆλ‹€. λ³Έ 논문은 LLM의 자체 λ°˜μ„±μ„ ν™œμš©ν•˜μ—¬ μ‹€μ œ μ·¨μ•½μ μœΌλ‘œλΆ€ν„° 높은 μ‹ λ’°λ„μ˜ 볡ꡬ μŒμ„ κ΅¬μΆ•ν•˜κ³ , λ‹€μ–‘ν•œ μ•”μ‹œμ  ν”„λ‘¬ν”„νŠΈλ₯Ό μƒμ„±ν•˜μ—¬ PrimeVul+ 데이터셋을 κ΅¬μΆ•ν•˜λŠ” Vul2Safe ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. λ˜ν•œ, 토큰 μˆ˜μ€€ 보상을 κ°•ν™” ν•™μŠ΅μ— λ„μž…ν•œ SRCodeλ₯Ό 톡해 μ½”λ“œ λ³΄μ•ˆμ„ μœ„ν•œ μƒˆλ‘œμš΄ ν›ˆλ ¨ ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ‹œν•˜λ©°, 이λ₯Ό 톡해 λ―Έμ„Έν•œ λ³΄μ•ˆ νŒ¨ν„΄μ„ μ§€μ†μ μœΌλ‘œ ν•™μŠ΅ν•˜κ³  κ°•ν™”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
LLM의 자체 λ°˜μ„±μ„ 톡해 κ³ ν’ˆμ§ˆμ˜ μ•ˆμ „ν•œ μ½”λ“œ 볡ꡬ μŒμ„ μžλ™μœΌλ‘œ μƒμ„±ν•˜μ—¬ λ³΄μ•ˆ 데이터 λΆ€μ‘± 문제λ₯Ό ν•΄κ²°ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
토큰 μˆ˜μ€€ 보상 μ‹œμŠ€ν…œμ„ λ„μž…ν•˜μ—¬ λ―Έμ„Έν•œ λ³΄μ•ˆ νŒ¨ν„΄μ„ 효과적으둜 ν•™μŠ΅ν•˜κ³ , μ½”λ“œ λ³΄μ•ˆ μ΅œμ ν™”λ₯Ό μ •λ°€ν•˜κ²Œ μˆ˜ν–‰ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ Vul2Safe ν”„λ ˆμž„μ›Œν¬μ™€ SRCode ν›ˆλ ¨ 방식은 λ‹€μ–‘ν•œ λ²€μΉ˜λ§ˆν¬μ—μ„œ μƒμ„±λœ μ½”λ“œμ˜ λ³΄μ•ˆ 취약점을 크게 쀄이고 μ „λ°˜μ μΈ μ½”λ“œ ν’ˆμ§ˆμ„ ν–₯μƒμ‹œν‚€λŠ” κ²ƒμœΌλ‘œ μž…μ¦λ˜μ—ˆμŠ΅λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬λŠ” LLM 기반 μ½”λ“œ μƒμ„±μ˜ λ³΄μ•ˆμ„±μ„ ν–₯μƒμ‹œν‚€λŠ” μƒˆλ‘œμš΄ λ°©ν–₯을 μ œμ‹œν•˜μ§€λ§Œ, μ‹€μ œ 배포 μ‹œ λ°œμƒν•  수 μžˆλŠ” λ³΅μž‘ν•˜κ³  예츑 λΆˆκ°€λŠ₯ν•œ 취약점에 λŒ€ν•œ 좔가적인 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘