자연어와 기하학적 형태를 결합하는 연구 분야는 로보틱스와 언어 지원 설계에 다양한 응용 분야를 가지고 있으며, 이 분야의 중요한 과제는 대상의 텍스트 설명을 기반으로 3D 객체를 선택하는 객체 참조 식별입니다. 언어 설명과 3D 객체의 공간적 관계의 변동성으로 인해 이 작업은 복잡하며, 이 영역에서 신경망 모델의 동작을 더 잘 이해해야 할 필요성이 증가하고 있습니다. 하지만 이 분야에 대한 연구는 제한적입니다. 특히 모델이 올바른 객체 설명을 제공받았음에도 불구하고 잘못된 예측을 할 때, 실무자들은 "왜 모델이 틀렸을까?"라는 의문을 가지게 됩니다. 본 연구에서는 반실제(counterfactual) 예시를 생성하여 이 질문에 답하는 방법을 제시합니다. 본 연구의 방법은 두 개의 객체와 텍스트 설명을 포함하는 잘못 분류된 샘플을 받아들이고, 모델에 의해 정확한 예측을 가져왔을 대체 가능하면서도 유사한 공식을 생성합니다. ShapeTalk 데이터 세트와 세 가지의 서로 다른 모델을 사용하여 접근 방식을 평가했습니다. 생성된 반실제 예시는 원래 설명의 구조를 유지하며, 의미적으로 유사하고 의미가 있습니다. 이러한 예시는 설명의 약점, 모델의 편향성을 드러내고 모델의 동작에 대한 이해를 향상시킵니다. 이러한 통찰력은 실무자가 시스템과 더 잘 상호 작용하고 엔지니어가 모델을 개선하는 데 도움이 됩니다.