본 논문은 시각적으로 기반을 둔 대화에서 언어 모델을 이용한 지시어(referring expression) 추출 방법을 탐구합니다. 특히, 대화의 시각적 맥락에서 (시각적으로 인지 가능한) 참조 대상을 갖는 언급(mention)을 감지하는 데 언어적 맥락이 얼마나 기여하는지 조사하는 것을 목표로 합니다. 미리 훈련된 대규모 언어 모델(LLM)을 적용하여 다음 토큰 예측을 통해 텍스트에서 언급 구간의 경계를 구분함으로써 대화에서 언급 구간에 대한 비교적 조잡한 주석을 수행합니다. 중간 크기의 LLM, 상대적으로 작은 데이터셋, 매개변수 효율적인 미세 조정을 사용하더라도 텍스트만으로 접근하는 방법이 효과적임을 보여주며, 이 작업에 대한 언어적 맥락의 상대적 중요성을 강조합니다. 그러나 이 작업은 본질적으로 다중 모드 문제이며, 단일 모드 접근 방식의 근본적인 한계를 논의합니다.