본 논문은 최근 멀티모달 대규모 언어 모델(MLLM)이 비전-언어 벤치마크 작업에서 뛰어난 성능을 보이지만, 입력 시각적 품질이 응답에 어떻게 영향을 미치는지에 대한 연구는 부족함을 지적합니다. 연구진은 주요 MLLM과 다양한 비전-언어 벤치마크를 사용하여 이미지에 제어된 저하 및 스타일 변화를 적용하는 체계적인 연구를 수행했습니다. 그 결과, 인간이 인지하는 충실도에서 벗어난 이미지가 모델, 작업, 심지어 개별 인스턴스의 성능을 향상시키는 "시각적 품질 역설"을 발견했습니다. 기존 복원 파이프라인은 이러한 특이한 선호도를 해결하지 못합니다. 이러한 문제를 해결하기 위해, 연구진은 Visual-Quality Test-Time Tuning (VQ-TTT)이라는 경량 적응 모듈을 제시합니다. VQ-TTT는 고정된 비전 인코더 앞에 학습 가능한 저랭크 커널을 삽입하여 주파수 콘텐츠를 조절하고, LoRA를 통해 얕은 비전 인코더 계층만 미세 조정합니다. VQ-TTT는 단일 전방 패스에서 각 입력 이미지를 동적으로 조정하여 작업별 모델 선호도에 맞춥니다. 평가된 모든 MLLM과 데이터 세트에서 VQ-TTT는 외부 모델, 캐시된 기능 또는 추가 훈련 데이터 없이도 상당한 평균 정확도 향상을 가져옵니다. 이러한 결과는 MLLM에 대한 "더 나은" 시각적 입력을 재정의하고, AI가 주요 데이터 고객인 새로운 시대에 보편적으로 "깨끗한" 이미지가 아닌 적응적인 이미지의 필요성을 강조합니다.