본 논문은 인간의 시각적 복잡성 인식에 대한 이해를 돕기 위해 기존의 복잡하고 해석하기 어려운 모델들을 개선하는 연구입니다. 기존 연구(Shen et al., 2024)에서 제시된 해석 가능한 분할 기반 모델의 한계점을 지적하며, 구조, 색상, 놀라움(surprisal) 요소를 추가로 고려한 새로운 모델을 제안합니다. 다중 스케일 Sobel Gradient(MSG), 다중 스케일 고유 색상(MUC), 그리고 대규모 언어 모델을 이용한 놀라움 점수를 활용하여 시각적 복잡성을 예측하는 성능을 향상시켰으며, 새로운 데이터셋인 Surprising Visual Genome을 사용하여 실험을 진행했습니다. 연구 결과, 시각적 복잡성 모델링은 예상보다 복잡하며, 데이터셋 편향을 해결하기 위해 추가적인 지각 및 의미론적 요소가 필요함을 보여줍니다. 제안된 모델은 예측 성능 향상과 함께 해석 가능성을 유지하여 시각적 복잡성 인식에 대한 깊이 있는 통찰력을 제공합니다.