본 논문은 원격 감지 영상 분할(RRSIS)을 위한 새로운 프레임워크인 CroBIM(cross-modal bidirectional interaction model)을 제안합니다. RRSIS는 자연어 표현과 원격 감지 영상을 입력으로 받아 표현에서 지칭하는 대상 객체의 픽셀 단위 마스크를 생성하는 과제입니다. CroBIM은 공간적 위치 관계와 작업 관련 지식을 언어적 특징에 통합하는 CAPM(context-aware prompt modulation) 모듈, 언어 정보를 다중 스케일 시각적 특징에 통합하는 LGFA(language-guided feature aggregation) 모듈, 그리고 양방향 교차 주의를 통해 교차 모달 특징 정렬을 향상시키는 MID(mutual-interaction decoder) 모듈로 구성됩니다. 또한, 대규모 RRSIS 벤치마크 데이터셋인 RISBench를 구축하여 제안된 방법의 성능을 평가하였으며, 기존 최첨단(SOTA) 방법보다 우수한 성능을 보임을 실험적으로 확인했습니다. 소스 코드와 RISBench 데이터셋은 공개적으로 제공됩니다.