Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Decoupling the Image Perception and Multimodal Reasoning for Reasoning Segmentation with Digital Twin Representations

Created by
  • Haebom

저자

Yizhen Li, Dell Zhang, Xuelong Li, Yiqing Shen

개요

Reasoning Segmentation (RS)은 암시적인 텍스트 질의를 기반으로 객체를 분할하는 다중 모드 비전-텍스트 작업으로, 정확한 시각적 인식과 비전-텍스트 추론 능력 모두를 필요로 합니다. 기존 RS 접근 방식은 시각적 인식과 추론 모두를 위해 비전-언어 모델(VLM)을 미세 조정하는 데 의존하지만, 이미지의 토큰화는 객체 간의 연속적인 공간 관계를 근본적으로 깨뜨립니다. 본 논문에서는 디지털 트윈(DT) 표현을 중간 계층으로 활용하여 인식과 추론을 분리하는 새로운 RS 접근 방식인 DTwinSeger를 제시합니다. DTwinSeger는 RS를 두 단계로 구성된 프로세스로 재구성하는데, 첫 번째 단계는 이미지를 공간 관계와 의미적 속성을 보존하는 구조화된 DT 표현으로 변환하고, 두 번째 단계는 대규모 언어 모델(LLM)을 사용하여 이 표현에 대한 명시적 추론을 수행하여 대상 객체를 식별합니다. LLM의 DT 표현 추론 능력을 향상시키기 위해 DT 표현을 사용하는 LLM을 위한 특수한 지도 학습 미세 조정 방법과 해당 미세 조정 데이터셋 Seg-DT를 제안합니다. 실험 결과, 제안된 방법은 두 가지 이미지 RS 벤치마크와 세 가지 이미지 참조 분할 벤치마크에서 최첨단 성능을 달성함을 보여줍니다. DT 표현이 비전과 텍스트 간의 효과적인 다리 역할을 하여 복잡한 다중 모드 추론 작업을 LLM만으로 수행할 수 있게 함을 보여줍니다.

시사점, 한계점

시사점:
디지털 트윈 표현을 활용하여 비전과 텍스트 간의 추론 과정을 효과적으로 분리함으로써 Reasoning Segmentation 성능 향상.
LLM 기반 추론을 통해 복잡한 다중 모드 추론 작업 수행 가능성 제시.
새로운 미세 조정 데이터셋 Seg-DT 및 LLM 미세 조정 방법 제안.
다양한 벤치마크에서 최첨단 성능 달성.
한계점:
제안된 방법의 효율성 및 확장성에 대한 추가적인 연구 필요.
DT 표현 생성 및 LLM 추론 과정의 계산 비용 문제.
다양한 유형의 이미지 및 텍스트 질의에 대한 일반화 성능 평가 필요.
Seg-DT 데이터셋의 규모 및 다양성 제한.
👍