Reasoning Segmentation (RS)은 암시적인 텍스트 질의를 기반으로 객체를 분할하는 다중 모드 비전-텍스트 작업으로, 정확한 시각적 인식과 비전-텍스트 추론 능력 모두를 필요로 합니다. 기존 RS 접근 방식은 시각적 인식과 추론 모두를 위해 비전-언어 모델(VLM)을 미세 조정하는 데 의존하지만, 이미지의 토큰화는 객체 간의 연속적인 공간 관계를 근본적으로 깨뜨립니다. 본 논문에서는 디지털 트윈(DT) 표현을 중간 계층으로 활용하여 인식과 추론을 분리하는 새로운 RS 접근 방식인 DTwinSeger를 제시합니다. DTwinSeger는 RS를 두 단계로 구성된 프로세스로 재구성하는데, 첫 번째 단계는 이미지를 공간 관계와 의미적 속성을 보존하는 구조화된 DT 표현으로 변환하고, 두 번째 단계는 대규모 언어 모델(LLM)을 사용하여 이 표현에 대한 명시적 추론을 수행하여 대상 객체를 식별합니다. LLM의 DT 표현 추론 능력을 향상시키기 위해 DT 표현을 사용하는 LLM을 위한 특수한 지도 학습 미세 조정 방법과 해당 미세 조정 데이터셋 Seg-DT를 제안합니다. 실험 결과, 제안된 방법은 두 가지 이미지 RS 벤치마크와 세 가지 이미지 참조 분할 벤치마크에서 최첨단 성능을 달성함을 보여줍니다. DT 표현이 비전과 텍스트 간의 효과적인 다리 역할을 하여 복잡한 다중 모드 추론 작업을 LLM만으로 수행할 수 있게 함을 보여줍니다.