Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

VICoT-Agent: A Vision-Interleaved Chain-of-Thought Framework for Interpretable Multimodal Reasoning and Scalable Remote Sensing Analysis

Created by
  • Haebom
Category
Empty

저자

Chujie Wang, Zhiyuan Luo, Ruiqi Liu, Can Ran, Shenghua Fan, Xi Chen, Chu He

개요

본 논문은 기존 객체 인식에서 복잡한 지능형 추론으로 진화하는 원격 감지 이미지 분석 작업의 요구 사항을 충족하기 위해, 시각적 도구를 사고 과정에 동적으로 통합하는 Vision-Interleaved Chain-of-Thought Framework (VICoT)라는 새로운 다중 모드 에이전트 프레임워크를 제안합니다. VICoT는 스택 기반 추론 구조와 모듈식 MCP 호환 도구 모음을 통해 대규모 언어 모델(LLM)이 강력한 일반화 및 유연성을 갖춘 다중 라운드, 인터리브된 시각-언어 추론 작업을 효율적으로 수행할 수 있도록 합니다. 또한, 복잡한 에이전트 동작을 작고 가벼운 모델로 이전하는 Reasoning Stack 증류 방법을 제안하여 복잡성을 크게 줄이면서 추론 능력을 보장합니다. 여러 원격 감지 벤치마크 실험 결과, VICoT가 추론 투명성, 실행 효율성 및 생성 품질 측면에서 기존 SOTA 프레임워크를 크게 능가했습니다.

시사점, 한계점

시사점:
원격 감지 이미지 분석에서 복잡한 추론 문제 해결을 위한 새로운 프레임워크 제시.
시각적 도구를 체계적으로 활용하여 LLM의 추론 능력 향상.
Reasoning Stack 증류 방법을 통해 모델 복잡성을 줄이면서 성능 유지.
추론 투명성, 실행 효율성, 생성 품질 측면에서 기존 SOTA를 능가하는 성능 입증.
한계점:
논문에서 구체적인 한계점 언급되지 않음. (추후 연구에서 보완 필요)
👍