haebom
Sign In
CAP: Controllable Alignment Prompting for Unlearning in LLMs
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Zhaokun Wang, Jinyu Guo, Jingwen Pu, Hongli Pu, Meng Yang, Xunlei Chen, Jie Ou, Wenyi Li, Guangchun Luo, Wenhong Tian
π‘ κ°μ
λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM)μ΄ νμ΅ λ°μ΄ν°μ ν¬ν¨λ λ―Όκ°ν μ 보λ₯Ό μ μ§ν μνμ΄ μμ΄ κ·μ μ€μ λ° μ€λ¦¬μ μμ μ μν΄ μ νμ μ§μ μμ (unlearning)κ° νμν©λλ€. κΈ°μ‘΄μ νλΌλ―Έν° μμ λ°©μμ λμ κ³μ° λΉμ©, ν΅μ λΆκ°λ₯ν μμ λ²μ, λͺ¨λΈ κ°μ€μΉ μ κ·Όμ μ μ½μ΄λΌλ νκ³κ° μμ΄ νμν λͺ¨λΈμ μ μ©νκΈ° μ΄λ ΅μ΅λλ€. λ³Έ λ Όλ¬Έμμλ νλΌλ―Έν° μμ μμ΄ κ°ν νμ΅μ ν΅ν΄ ν둬ννΈλ₯Ό μ΅μ ννμ¬ λͺ©ν μ§μμ μ΅μ νλ λμμ μΌλ°μ μΈ λ₯λ ₯μ μ νμ μΌλ‘ 보쑴νλ μ μ΄ κ°λ₯ν μ λ ¬ ν둬νν (CAP) νλ μμν¬λ₯Ό μ μν©λλ€.
π μμ¬μ λ° νκ³
β’
νμν LLMμ μν μ€μ©μ μΈ μ§μ μμ λ°©λ²λ‘ μ μ:
λͺ¨λΈ κ°μ€μΉμ μ κ·Όνμ§ μκ³ λ ν¨κ³Όμ μΌλ‘ μ§μμ μμ ν μ μλ μλ‘μ΄ ν둬ννΈ κΈ°λ° μ κ·Ό λ°©μμ μ 곡ν©λλ€.
β’
μ κ΅νκ³ μ μ΄ κ°λ₯ν μ§μ μμ :
κ°ν νμ΅ κΈ°λ° ν둬ννΈ μ΅μ νλ₯Ό ν΅ν΄ νΉμ μ 보λ₯Ό μ ννκ² μμ νλ©΄μλ λͺ¨λΈμ μ λ°μ μΈ μ±λ₯μ μ μ§ν μ μμ΅λλ€.
β’
λ°μ΄ν° νλΌμ΄λ²μ λ° κ·μ μ€μλ₯Ό μν μ μ¬λ ₯:
λ―Όκ° μ 보 μμ κΈ°λ₯μ ν΅ν΄ LLMμ μμ νκ³ μ± μκ° μλ μ¬μ©μ μ§μν μ μμ΅λλ€.
β’
ν둬ννΈ μμ± λ° μ΅μ ν κ³Όμ μ 볡μ‘μ±:
κ°ν νμ΅μ ν΅ν ν둬ννΈ μ΅μ ν κ³Όμ μ μ¬μ ν μλΉν κ³μ° μμμ μꡬν μ μμΌλ©°, μ΅μ μ ν둬ννΈ κ΅¬μ±μ μν μΆκ°μ μΈ μ°κ΅¬κ° νμν μ μμ΅λλ€.
PDF 보기
Made with Slashpage