본 논문은 대규모 언어 모델(LLM)을 활용하여 음성 기반 쿼리에 대한 시각적 보완이 필요한 시점을 예측하는 연구를 제시한다. 전자 상거래에서 사용자가 다양한 기기를 넘나들며 쇼핑하는 상황을 고려하여, 음성 쿼리에 대한 시각적 보완(예: 이미지)이 필요한 시점을 정확하게 예측하여 기기 전환을 제안함으로써 사용자 경험을 개선하는 것을 목표로 한다. 이를 위해 Image-Seeking Intent Prediction이라는 새로운 과제를 정의하고, IRP(Image Request Predictor) 모델을 개발했다. IRP는 음성 쿼리 및 검색된 제품 메타데이터를 활용하며, 경량 요약을 통해 향상된 쿼리 의미론과 제품 데이터를 결합하여 예측 정확도를 높인다. 또한, 차별적 정밀도 지향 손실을 사용하여 오탐을 줄였다.