# Safety Geometry Collapse in Multimodal LLMs and Adaptive Drift Correction

### 저자

Jiahe Guo, Xiangran Guo, Jiaxuan Chen, Weixiang Zhao, Yanyan Zhao, Yutai Hou, Qianchao Wang, Dandan Tu, Bing Qin

### 💡 개요

본 연구는 멀티모달 대규모 언어 모델(MLLM)이 텍스트에서 학습한 안전 기능을 비텍스트 입력으로 효과적으로 전달하지 못하는 '멀티모달 안전 격차' 현상을 분석합니다. 저자들은 이 격차가 텍스트 정렬 거부 방향과 모달리티 유발 드리프트 방향의 기하학적 관점에서 발생하며, 멀티모달 입력이 거부 방향의 사용 가능한 분리도를 압축하여 '안전 기하학적 붕괴'를 유발한다고 설명합니다. 이를 해결하기 위해 훈련 없이 추론 시 모달리티 드리프트를 적응적으로 교정하는 ReGap 방법을 제안하며, 이를 통해 MLLM의 안전성을 크게 향상시킵니다.

### 🔑 시사점 및 한계

- 멀티모달 LLM의 안전 격차는 텍스트와 비텍스트 입력 간의 표현 공간 기하학적 차이에서 비롯된다는 점을 명확히 규명했습니다.

- 모달리티 드리프트 보정을 통해 추론 시점에서도 MLLM의 안전성을 효과적으로 개선할 수 있는 방법을 제시했습니다.

- 본 연구에서 제안하는 ReGap 방법은 추가적인 훈련 없이 추론 시 적용 가능하여 실용성이 높습니다.

- 드리프트 교정 과정에서 발생하는 자체 교정(self-rectification) 현상을 모델 내부의 유해성 인식 신호로 활용할 수 있습니다.

- (한계점 또는 향후 과제) ReGap 방법이 모든 유형의 모달리티 드리프트나 복잡한 멀티모달 입력에 대해 일관된 성능을 보일지는 추가적인 검증이 필요하며, 드리프트 측정 및 보정 메커니즘의 일반화 가능성에 대한 연구가 더 필요할 수 있습니다.

---

[PDF 보기](https://arxiv.org/pdf/2605.18104)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
