본 논문은 시각 언어 모델(VLMs)이 모순되는 다중 모드 정보를 조정하는 능력에 대한 연구를 진행합니다. ASCII 아트, 즉 문자 요소들이 시각적 패턴을 형성하는 매체를 사용하여, 문자 수준의 의미와 전반적인 시각적 패턴이 의도적으로 상충하는 적대적 ASCII 아트로 5개의 최첨단 모델(GPT-4o, Claude, Gemini 포함)을 평가하는 새로운 프레임워크를 제시합니다. 실험 결과, VLMs는 시각적 패턴보다 텍스트 정보를 우선시하는 경향이 강하며, 의미적 복잡성이 증가함에 따라 시각적 인식 능력이 크게 저하됨을 보여줍니다. 시각적 매개변수 조정 및 프롬프트 엔지니어링을 통한 완화 시도는 미미한 개선만을 가져왔으며, 이러한 한계를 극복하려면 아키텍처 수준의 해결책이 필요함을 시사합니다. 이 연구는 현재 VLMs가 다중 모드 정보를 통합하는 방식의 근본적인 결함을 밝히고, 적대적 예시에 취약한 콘텐츠 조정 시스템에 대한 중요한 함의를 제시하며, 미래 모델 개발에 대한 중요한 지침을 제공합니다.