대규모 시각-언어 모델(VLM)은 단일 단계 생성으로 인해 상세한 묘사를 놓치고 전체적인 일관성을 유지하는 데 어려움을 겪음. 이를 해결하기 위해, 이미지 캡셔닝을 목표 지향적 계층적 개선 계획 문제로 재정의하고, 마르코프 의사 결정 과정(MDP)으로 생성 과정을 모델링하는 Top-Down Semantic Refinement (TDSR) 프레임워크 제안. VLM의 방대한 상태 공간 내 계획의 계산 문제를 해결하기 위해, 시각 지향 병렬 확장을 통합하고 가벼운 가치 네트워크를 사용하는 효율적인 몬테카를로 트리 탐색(MCTS) 알고리즘 설계. TDSR은 기존 VLM의 성능을 향상시키는 플러그 앤 플레이 모듈로, 세부 묘사, 구성 일반화, 환각 억제 측면에서 최고 수준 또는 경쟁력 있는 결과를 달성.