본 논문은 이미지의 은유적 이해라는 AI 시스템의 난제를 해결하기 위해, Let Androids Dream (LAD)이라는 새로운 프레임워크를 제안합니다. LAD는 이미지의 맥락적 공백을 해결하기 위해 지각(시각 정보를 풍부한 다층적 텍스트 표현으로 변환), 탐색(모호성 해소를 위한 교차 도메인 지식의 반복적 탐색 및 통합), 추론(맥락 정렬 이미지 함축 생성을 위한 명시적 추론)의 세 단계 프레임워크를 사용합니다. 경량 GPT-4o-mini 모델을 사용한 이 프레임워크는 영어 이미지 함축 벤치마크에서 15개 이상의 MLLM에 비해 최첨단 성능을 달성했으며, 중국어 벤치마크에서도 큰 향상을 보였습니다. 다중 선택 질문(MCQ)에서는 GPT-4o 모델과 비슷한 성능을, 개방형 질문(OSQ)에서는 36.7% 더 높은 성능을 보였습니다.