본 논문은 대형 언어 모델(LLM)을 활용하여 물리적 로봇과의 협업적 객체 분류 작업에서 사용자 의도를 추론하는 새로운 다중 모드 접근 방식을 제안합니다. 사용자의 비언어적 단서(손짓, 자세, 표정), 환경 상태, 그리고 언어적 단서를 계층적 구조에서 통합하여 사용자 의도를 예측합니다. 5개의 LLM을 평가하여, LLM이 문맥 이해와 현실 세계 지식을 활용하여 사회적 로봇과의 작업 협업 중 사용자 의도 예측을 지원할 수 있는 잠재력을 보여줍니다.