대규모 기초 모델(LFMs)은 환각과 탈옥 공격이라는 두 가지 취약성에 취약합니다. 일반적으로 개별적으로 연구되지만, 한쪽을 겨냥한 방어가 다른 쪽에도 영향을 미치는 것을 관찰하여 더 깊은 연관성을 암시합니다. 본 논문은 탈옥을 토큰 수준 최적화로, 환각을 어텐션 수준 최적화로 모델링하는 통합 이론적 프레임워크를 제안합니다. 이 프레임워크 내에서 두 가지 주요 명제를 확립합니다. (1) 유사한 손실 수렴: 목표 특정 출력을 최적화할 때 두 취약성에 대한 손실 함수가 유사하게 수렴합니다. (2) 어텐션 재분배의 기울기 일관성: 공유된 어텐션 역학에 의해 구동되는 일관된 기울기 동작을 모두 보입니다. LLaVA-1.5 및 MiniGPT-4에서 경험적으로 이러한 명제를 검증하여 일관된 최적화 추세와 정렬된 기울기를 보여줍니다. 이러한 연관성을 활용하여 환각에 대한 완화 기술이 탈옥 성공률을 줄일 수 있고 그 반대의 경우도 가능함을 보여줍니다. 이러한 결과는 LFM의 공유된 실패 모드를 보여주며 강력한 전략은 두 가지 취약성을 공동으로 해결해야 함을 시사합니다.