본 논문은 대규모 비전-언어 모델(LVLMs)에서 비전-언어 정렬이 성공적으로 LLMs의 시각 입력 이해를 가능하게 하지만, 기존 방법이 LLMs의 기존 텍스트 안전 메커니즘을 시각으로 전이시키지 못해 유해 이미지에 대한 취약성을 초래한다는 점을 발견했습니다. 이 문제의 원인을 탐구하기 위해 LVLMs의 안전 메커니즘이 작동하는 위치와 방식에 대한 통찰력 있는 설명을 제공하고 텍스트와 시각 간의 비교 분석을 수행했습니다. 특정 트랜스포머 계층의 은닉 상태가 안전 메커니즘의 성공적인 활성화에 중요한 역할을 하는 반면, 현재 방법의 은닉 상태 수준에서의 비전-언어 정렬은 불충분하다는 것을 발견했습니다. 이는 은닉 상태에서 텍스트와 비교하여 입력 이미지의 의미론적 변화를 초래하여 안전 메커니즘을 오도합니다. 이를 해결하기 위해 본 논문은 LVLMs에 대한 새로운 텍스트 안내 비전-언어 정렬 방법(TGA)을 제안합니다. TGA는 입력 시각과 관련된 텍스트를 검색하고 이를 사용하여 LLMs의 은닉 상태 공간으로 시각의 투영을 안내합니다. 실험 결과 TGA는 시각 모드에 대한 안전 미세 조정 없이 기본 LLMs의 텍스트에 대한 안전 메커니즘을 LVLMs의 비전-언어 정렬에 성공적으로 전이시킬 뿐만 아니라 다양한 비전 작업에서 일반적인 성능도 유지한다는 것을 보여줍니다.