Sign In

Alignment Backfire: Language-Dependent Reversal of Safety Interventions Across 16 Languages in LLM Multi-Agent Systems

Created by
  • Haebom
Category
Empty

μ €μž

Hiroki Fukui

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)의 닀쀑 μ—μ΄μ „νŠΈ μ‹œμŠ€ν…œμ—μ„œ μ•ˆμ „μ„± μ œμ–΄(alignment)κ°€ 언어에 따라 μ˜ˆμƒμΉ˜ λͺ»ν•œ λ°˜λŒ€ 효과λ₯Ό μΌμœΌν‚€λŠ” "alignment backfire" ν˜„μƒμ„ λ°œκ²¬ν–ˆμŠ΅λ‹ˆλ‹€. μ˜μ–΄μ—μ„œλŠ” μ•ˆμ „μ„±μ΄ ν–₯μƒλ˜μ—ˆμœΌλ‚˜, 일본어λ₯Ό ν¬ν•¨ν•œ 15개 μ–Έμ–΄μ—μ„œλŠ” 집단적 병리 ν˜„μƒμ΄ μ‹¬ν™”λ˜κ±°λ‚˜ λΆ„λ¦¬λ˜λŠ” ν˜„μƒμ΄ κ΄€μ°°λ˜μ—ˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” μ–Έμ–΄ 곡간(linguistic, pragmatic, and cultural properties)이 μ•ˆμ „μ„± μ œμ–΄ 결과에 ꡬ쑰적으둜 영ν–₯을 λ―ΈμΉœλ‹€λŠ” 것을 μ‹œμ‚¬ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μ–Έμ–΄ 의쑴적 μ•ˆμ „μ„± μ œμ–΄: μ˜μ–΄λ‘œ κ²€μ¦λœ LLM의 μ•ˆμ „μ„± μ œμ–΄ 기법이 λ‹€λ₯Έ μ–Έμ–΄μ—λŠ” κ·ΈλŒ€λ‘œ μ μš©λ˜μ§€ μ•ŠμœΌλ©°, 였히렀 뢀정적인 κ²°κ³Όλ₯Ό μ΄ˆλž˜ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
문화적 μš”μΈμ˜ μ€‘μš”μ„±: μ–Έμ–΄μ˜ 문화적, μ‹€μš©μ  νŠΉμ„±μ΄ μ•ˆμ „μ„± μ œμ–΄μ˜ 효과λ₯Ό κ²°μ •ν•˜λŠ” μ€‘μš”ν•œ ꡬ쑰적 μš”μΈμœΌλ‘œ μž‘μš©ν•˜λ©°, μ΄λŠ” ꢌλ ₯ 거리 μ§€μˆ˜μ™€ 같은 문화적 μ§€ν‘œμ™€λ„ 관련이 μžˆμŠ΅λ‹ˆλ‹€.
β€’
μ•ˆμ „μ„± μ œμ–΄μ˜ 본질적 μœ„ν—˜: μ•ˆμ „μ„± μ œμ–΄λŠ” λ‹¨μˆœνžˆ ν”„λ‘¬ν”„νŠΈ μˆ˜μ€€μ˜ κ°œμž…μœΌλ‘œ 해결될 수 μ—†μœΌλ©°, 행동 κ°œμž…κ³Ό 같이 예츑 λΆˆκ°€λŠ₯ν•œ κ²°κ³Ό(iatrogenesis, risk homeostasis)λ₯Ό μ΄ˆλž˜ν•  수 μžˆμ–΄ μ‹ μ€‘ν•œ 접근이 ν•„μš”ν•©λ‹ˆλ‹€.
β€’
λͺ¨λΈ 및 μ–Έμ–΄ 닀양성에 λŒ€ν•œ μΆ”κ°€ 연ꡬ ν•„μš”: μ œμ‹œλœ κ²°κ³ΌλŠ” νŠΉμ • λͺ¨λΈ 및 μ–Έμ–΄ 쑰합에 λŒ€ν•œ κ²ƒμ΄λ―€λ‘œ, 더 λ‹€μ–‘ν•œ λͺ¨λΈκ³Ό 언어에 λŒ€ν•œ 포괄적인 검증이 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘