haebom
Sign In
Multilingual Safety Alignment via Self-Distillation
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Ruiyang Qin, Qingzhuo Wang, Dongrui Liu, Qiang Li, Zhihua Wei, Wen Shen
π‘ κ°μ
λ³Έ λ Όλ¬Έμ λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM)μ΄ κ³ μμ μΈμ΄μμλ μμ νμ§λ§ μ μμ μΈμ΄μμλ μ·¨μ½ν λ€κ΅μ΄ μμ μ± λΆμΌμΉ λ¬Έμ λ₯Ό ν΄κ²°ν©λλ€. μ΄λ₯Ό μν΄ μ μλ λ€κ΅μ΄ μ체 μ¦λ₯(MSD) νλ μμν¬λ κ³ μμ μΈμ΄μ μμ κΈ°λ₯μ μ μμ μΈμ΄λ‘ μ μ΄νμ¬, κ° μΈμ΄λ³ μλ΅ λ°μ΄ν° μμ± μμ΄λ μμ μ±μ κ°νν©λλ€. λν, κ΅μ¬μ νμ λͺ¨λΈμ κ΄μ μ λͺ¨λ κ³ λ €νμ¬ μμ κ΄λ ¨ ν ν°μ κ°μ€μΉλ₯Ό λΆμ¬νλ DPSW κΈ°λ²μ ν΅ν΄ ν¨κ³Όμ μΈ κ΅μ°¨ μΈμ΄ μμ μ μ΄λ₯Ό λ¬μ±ν©λλ€.
π μμ¬μ λ° νκ³
β’
μ μμ μΈμ΄μμμ LLM μμ μ±μ κ°μ νκΈ° μν ν¨κ³Όμ μΈ κ΅μ°¨ μΈμ΄ μ μ΄ λ°©λ²λ‘ μ μ μν©λλ€.
β’
μλ΅ λ°μ΄ν° μμ±μ΄ μ΄λ €μ΄ κ²½μ°μλ LLMμ μμ μ±μ ν₯μμν¬ μ μλ μ€μ©μ μΈ μ κ·Ό λ°©μμ μ 곡ν©λλ€.
β’
μ μλ λ°©λ²μ λ€μν LLMκ³Ό λ°μ΄ν°μ μ λν΄ μ°μν μ±λ₯μ 보μ΄λ©°, μλ‘μ΄ μΈμ΄μ λν μΌλ°ν λ₯λ ₯λ μ μ¦νμ΅λλ€.
β’
λͺ¨λΈμ μΌλ°μ μΈ λ₯λ ₯(general capabilities)μ μ μ§νλ©΄μ μμ μ±μ λμ΄λ κ²μ΄ ν₯ν κ³Όμ μ λλ€.
PDF 보기
Made with Slashpage