본 논문은 대규모 다중 모달 모델(LMM) 기반의 차량 AI 어시스턴트를 제안하며, 특히 LLaVA(Large Language and Vision Assistant)를 활용한 작업 지향적 의미 통신 프레임워크를 연구합니다. 사용자와 클라우드 서버 간 효율적인 상호 작용을 위해 LLaVA의 이미지 슬라이싱을 최적화하여 사용자 관심 영역에 집중하고, 객관적 및 주관적 사용자 주의도를 결합하여 이미지 패치의 중요도를 평가함으로써 의미 정보 전송에 대한 에너지 사용량을 조정합니다. 교통 상황에 대한 VQA(Visual Question Answering) 데이터셋을 구축하여 효과를 평가하였으며, 실험 결과 저 SNR 환경에서도 정확도가 크게 향상됨을 보였습니다 (SNR 12dB에서 13.4%, 10dB에서 33.1% 향상).