Sign In

Multilingual Safety Alignment via Self-Distillation

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Ruiyang Qin, Qingzhuo Wang, Dongrui Liu, Qiang Li, Zhihua Wei, Wen Shen

πŸ’‘ κ°œμš”

λ³Έ 논문은 λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)이 κ³ μžμ› μ–Έμ–΄μ—μ„œλŠ” μ•ˆμ „ν•˜μ§€λ§Œ μ €μžμ› μ–Έμ–΄μ—μ„œλŠ” μ·¨μ•½ν•œ λ‹€κ΅­μ–΄ μ•ˆμ „μ„± 뢈일치 문제λ₯Ό ν•΄κ²°ν•©λ‹ˆλ‹€. 이λ₯Ό μœ„ν•΄ μ œμ•ˆλœ λ‹€κ΅­μ–΄ 자체 증λ₯˜(MSD) ν”„λ ˆμž„μ›Œν¬λŠ” κ³ μžμ› μ–Έμ–΄μ˜ μ•ˆμ „ κΈ°λŠ₯을 μ €μžμ› μ–Έμ–΄λ‘œ μ „μ΄ν•˜μ—¬, 각 언어별 응닡 데이터 생성 없이도 μ•ˆμ „μ„±μ„ κ°•ν™”ν•©λ‹ˆλ‹€. λ˜ν•œ, ꡐ사와 학생 λͺ¨λΈμ˜ 관점을 λͺ¨λ‘ κ³ λ €ν•˜μ—¬ μ•ˆμ „ κ΄€λ ¨ 토큰에 κ°€μ€‘μΉ˜λ₯Ό λΆ€μ—¬ν•˜λŠ” DPSW 기법을 톡해 효과적인 ꡐ차 μ–Έμ–΄ μ•ˆμ „ 전이λ₯Ό λ‹¬μ„±ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μ €μžμ› μ–Έμ–΄μ—μ„œμ˜ LLM μ•ˆμ „μ„±μ„ κ°œμ„ ν•˜κΈ° μœ„ν•œ 효과적인 ꡐ차 μ–Έμ–΄ 전이 방법둠을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
응닡 데이터 생성이 μ–΄λ €μš΄ κ²½μš°μ—λ„ LLM의 μ•ˆμ „μ„±μ„ ν–₯μƒμ‹œν‚¬ 수 μžˆλŠ” μ‹€μš©μ μΈ μ ‘κ·Ό 방식을 μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ 방법은 λ‹€μ–‘ν•œ LLMκ³Ό 데이터셋에 λŒ€ν•΄ μš°μˆ˜ν•œ μ„±λŠ₯을 보이며, μƒˆλ‘œμš΄ 언어에 λŒ€ν•œ μΌλ°˜ν™” λŠ₯λ ₯도 μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
λͺ¨λΈμ˜ 일반적인 λŠ₯λ ₯(general capabilities)을 μœ μ§€ν•˜λ©΄μ„œ μ•ˆμ „μ„±μ„ λ†’μ΄λŠ” 것이 ν–₯ν›„ κ³Όμ œμž…λ‹ˆλ‹€.
πŸ‘