haebom
Sign In
Uncovering Logit Suppression Vulnerabilities in LLM Safety Alignment
Created by
Haebom
Category
Empty
μ μ
Yuxi Li, Yi Liu, Yuekang Li, Ling Shi, Gelei Deng, Shengquan Chen, Kailong Wang
π‘ κ°μ
λ³Έ λ Όλ¬Έμ λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM)μ μμ μ λ ¬μ μ¬μ©λλ λ‘μ§ μ΅μ (logit suppression) κΈ°λ²μ μ·¨μ½μ μ λ°νλ λλ€. μ°κ΅¬μ§μ λͺ¨λΈ νλΌλ―Έν°λ₯Ό λ³κ²½νμ§ μκ³ μΆλ ₯μΈ΅ λ‘μ§μ 체κ³μ μΌλ‘ μ‘°μνλ Semantic-sensitive Alignment and Generation (SSAG) λ°©λ²μ μ μνμ¬, μ ν΄ν μλ΅μ 95%μ μ±κ³΅λ₯ λ‘ νμ§νκ³ μλ΅ μκ°μ 86% λ¨μΆνλ μ±κ³Όλ₯Ό 보μμ΅λλ€. μ΄λ¬ν κ²°κ³Όλ κΈ°μ‘΄ μμ μ λ ¬ λ°©μμ μ€λν μ½μ μ λλ¬λ΄λ©°, μ·¨μ½μ νμ§ λ° κ°νλ μμ μ λ ¬ μ λ΅μ νμμ±μ κ°μ‘°ν©λλ€.
π μμ¬μ λ° νκ³
β’
LLM μμ μ λ ¬μ λ리 μ¬μ©λλ λ‘μ§ μ΅μ κΈ°λ²μ΄ κ·Όλ³Έμ μΈ μ·¨μ½μ μ λ΄ν¬νκ³ μμμ μμ¬ν©λλ€.
β’
μ μλ SSAG λ°©λ²λ‘ μ΄ λͺ¨λΈ νλΌλ―Έν° μμ μμ΄ ν¨κ³Όμ μΌλ‘ μ ν΄ μλ΅μ νμ§νκ³ μλλ₯Ό ν₯μμν¬ μ μμμ 보μ¬μ€λλ€.
β’
κ°λ ₯ν λ°©μ΄ κΈ°μ μλ λΆκ΅¬νκ³ λμ 곡격 μ±κ³΅λ₯ μ λ¬μ±νμ¬, LLM μμ μ±μ λν μ¬μΈ΅μ μΈ μ¬κ²ν λ₯Ό μꡬν©λλ€.
β’
μ μλ μ·¨μ½μ νμ§ λ°©λ²μ μΌλ°ν κ°λ₯μ± λ° μ€μ μ μ© μ λ°μν μ μλ μ μ¬μ λΆμμ©μ λν μΆκ° μ°κ΅¬κ° νμν©λλ€.
PDF 보기
Made with Slashpage