Sign In

Uncovering Logit Suppression Vulnerabilities in LLM Safety Alignment

Created by
  • Haebom
Category
Empty

μ €μž

Yuxi Li, Yi Liu, Yuekang Li, Ling Shi, Gelei Deng, Shengquan Chen, Kailong Wang

πŸ’‘ κ°œμš”

λ³Έ 논문은 λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)의 μ•ˆμ „ 정렬에 μ‚¬μš©λ˜λŠ” λ‘œμ§“ μ–΅μ œ(logit suppression) κΈ°λ²•μ˜ 취약점을 λ°ν˜€λƒ…λ‹ˆλ‹€. 연ꡬ진은 λͺ¨λΈ νŒŒλΌλ―Έν„°λ₯Ό λ³€κ²½ν•˜μ§€ μ•Šκ³  좜λ ₯μΈ΅ λ‘œμ§“μ„ μ²΄κ³„μ μœΌλ‘œ μ‘°μž‘ν•˜λŠ” Semantic-sensitive Alignment and Generation (SSAG) 방법을 μ œμ•ˆν•˜μ—¬, μœ ν•΄ν•œ 응닡을 95%의 성곡λ₯ λ‘œ νƒμ§€ν•˜κ³  응닡 μ‹œκ°„μ„ 86% λ‹¨μΆ•ν•˜λŠ” μ„±κ³Όλ₯Ό λ³΄μ˜€μŠ΅λ‹ˆλ‹€. μ΄λŸ¬ν•œ κ²°κ³ΌλŠ” κΈ°μ‘΄ μ•ˆμ „ μ •λ ¬ λ°©μ‹μ˜ μ€‘λŒ€ν•œ 약점을 λ“œλŸ¬λ‚΄λ©°, 취약점 탐지 및 κ°•ν™”λœ μ•ˆμ „ μ •λ ¬ μ „λž΅μ˜ ν•„μš”μ„±μ„ κ°•μ‘°ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
LLM μ•ˆμ „ 정렬에 널리 μ‚¬μš©λ˜λŠ” λ‘œμ§“ μ–΅μ œ 기법이 근본적인 취약점을 λ‚΄ν¬ν•˜κ³  μžˆμŒμ„ μ‹œμ‚¬ν•©λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ SSAG 방법둠이 λͺ¨λΈ νŒŒλΌλ―Έν„° μˆ˜μ • 없이 효과적으둜 μœ ν•΄ 응닡을 νƒμ§€ν•˜κ³  속도λ₯Ό ν–₯μƒμ‹œν‚¬ 수 μžˆμŒμ„ λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
κ°•λ ₯ν•œ λ°©μ–΄ κΈ°μ œμ—λ„ λΆˆκ΅¬ν•˜κ³  높은 곡격 성곡λ₯ μ„ λ‹¬μ„±ν•˜μ—¬, LLM μ•ˆμ „μ„±μ— λŒ€ν•œ 심측적인 μž¬κ²€ν† λ₯Ό μš”κ΅¬ν•©λ‹ˆλ‹€.
β€’
μ œμ‹œλœ 취약점 탐지 λ°©λ²•μ˜ μΌλ°˜ν™” κ°€λŠ₯μ„± 및 μ‹€μ œ 적용 μ‹œ λ°œμƒν•  수 μžˆλŠ” 잠재적 λΆ€μž‘μš©μ— λŒ€ν•œ μΆ”κ°€ 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘