본 논문은 다중 모달 대규모 언어 모델(MLLM)에서 복잡한 추론을 향상시킨 사고의 연쇄(CoT) 방법론이 텍스트 또는 정적 시각 영역에 국한되어 역동적인 공간 추론 과제에서는 종종 실패하는 점을 지적합니다. 이를 해결하기 위해, 역동적인 공간 추론을 평가하기 위한 새로운 미로 탐색 벤치마크인 GRASSLAND를 제시합니다. 입력 이미지에 겹쳐진 역동적인 시각 초안을 텍스트 추론 사슬에 추가하는 것이 기존 방법보다 성능이 훨씬 우수함을 실험을 통해 보여주며, 진화하는 환경에서의 공간 추론에 대한 새로운 통찰력을 제공합니다. 이 기능을 일반화하기 위해, 텍스트 CoT와 해당 시각 초안을 MLLM에 원활하게 통합하는 훈련이 필요 없는 프레임워크인 D2R(Dynamic Draft-Augmented Reasoning)을 제안합니다. 광범위한 평가는 D2R이 다양한 과제에서 성능을 지속적으로 향상시켜 모델 미세 조정 없이 역동적인 공간 추론에 대한 강력한 기준을 설정함을 보여줍니다. GitHub에서 프로젝트를 공개합니다.
시사점, 한계점
•
시사점:
◦
역동적인 시각 정보를 활용한 사고의 연쇄(CoT)가 다중 모달 대규모 언어 모델(MLLM)의 역동적인 공간 추론 능력을 크게 향상시킬 수 있음을 보여줍니다.
◦
훈련 없이도 MLLM의 역동적인 공간 추론 성능을 향상시키는 D2R 프레임워크를 제시합니다.
◦
GRASSLAND라는 새로운 벤치마크를 통해 역동적인 공간 추론 과제를 평가할 수 있는 기준을 제공합니다.
•
한계점:
◦
GRASSLAND 벤치마크는 미로 탐색에 국한되어 있으며, 다른 유형의 역동적인 공간 추론 과제에 대한 일반화 성능은 추가 연구가 필요합니다.