본 논문은 다중 모달 모델이 배경과 시각적으로 동화된 물체를 식별하는 데 있어 인간 시각 시스템과 상당한 차이를 보이는 현상을 다룹니다. 특히, 다중 모달 모델이 은폐된 물체를 구분하지 못하는 현상에 주목하여, 인간의 시각적 분석에서 전경-배경 유사성 원리를 효과적으로 활용하는 인지 과정을 모방하지 못하는 점을 지적합니다. 이를 해결하기 위해, 인간의 위장된 지각을 모방하는 시각 시스템을 구축하여 시각적으로 은폐된 콘텐츠를 점진적이고 반복적으로 '재초점'시키는 방법을 제안합니다. 이 '재초점'은 단계적인 추론을 통해 모델이 시각 이미지에서 물체를 논리적으로 찾을 수 있도록 하는 점진적인 안내 메커니즘입니다. 은폐된 물체의 위치 파악 과정에는 계층적 주의 전환과 사전 인지 지식의 동적 조정 및 개선이 필요하며, 정책 최적화 알고리즘을 통한 시각적 재초점 강화 프레임워크를 제안하여 다중 모달 모델이 답변하기 전에 더 많이 생각하고 재초점을 맞추도록 유도하고, 인간의 위장된 지각 시스템과 일치하거나 능가하는 우수한 추론 능력을 달성합니다. 위장된 물체 분류 및 탐지 작업에 대한 광범위한 실험을 통해 다중 추론 토큰과 탐지 박스의 동적 조정을 특징으로 하는 재초점 시각 현상의 출현을 성공적으로 입증하였으며, 감독 미세 조정(SFT) 기준선과 비교하여 상당히 우수한 성능을 보였습니다.