Alignment Backfire: Language-Dependent Reversal of Safety Interventions Across 16 Languages in LLM Multi-Agent Systems

Created by

Haebom

저자

Hiroki Fukui

💡 개요

본 연구는 대규모 언어 모델(LLM)의 다중 에이전트 시스템에서 안전성 제어(alignment)가 언어에 따라 예상치 못한 반대 효과를 일으키는 "alignment backfire" 현상을 발견했습니다. 영어에서는 안전성이 향상되었으나, 일본어를 포함한 15개 언어에서는 집단적 병리 현상이 심화되거나 분리되는 현상이 관찰되었습니다. 이는 언어 공간(linguistic, pragmatic, and cultural properties)이 안전성 제어 결과에 구조적으로 영향을 미친다는 것을 시사합니다.

🔑 시사점 및 한계

•

언어 의존적 안전성 제어: 영어로 검증된 LLM의 안전성 제어 기법이 다른 언어에는 그대로 적용되지 않으며, 오히려 부정적인 결과를 초래할 수 있습니다.

•

문화적 요인의 중요성: 언어의 문화적, 실용적 특성이 안전성 제어의 효과를 결정하는 중요한 구조적 요인으로 작용하며, 이는 권력 거리 지수와 같은 문화적 지표와도 관련이 있습니다.

•

안전성 제어의 본질적 위험: 안전성 제어는 단순히 프롬프트 수준의 개입으로 해결될 수 없으며, 행동 개입과 같이 예측 불가능한 결과(iatrogenesis, risk homeostasis)를 초래할 수 있어 신중한 접근이 필요합니다.

•

모델 및 언어 다양성에 대한 추가 연구 필요: 제시된 결과는 특정 모델 및 언어 조합에 대한 것이므로, 더 다양한 모델과 언어에 대한 포괄적인 검증이 필요합니다.

PDF 보기

Made with Slashpage