본 논문은 MediaEval 2025 워크숍의 "Memorability: Predicting movie and commercial memorability" 태스크의 "Subtask 2: Commercial/Ad Memorability"에서 상업 광고의 기억 용이성을 예측하는 문제를 다룬다. Gemma-3 LLM을 기반으로 사전 계산된 시각적 특징(ViT)과 텍스트 특징(E5)을 다중 모드 투영을 통해 통합하는 멀티모달 융합 시스템을 제안한다. Low-Rank Adaptation (LoRA)을 사용하여 모델을 적응시켰다. 또한, 고도로 조정된 그래디언트 부스팅 트리 앙상블을 기반선으로 사용한다. 주요 기여는 전문가가 도출한 기억 용이성 측면에 기반한 LLM 생성 근거 프롬프트를 사용하여 융합 모델을 안내하는 것이다. LLM 기반 시스템은 최종 테스트 세트에서 기준선보다 더 큰 견고성과 일반화 성능을 보여준다.