Sign In

LLM-based Fusion of Multi-modal Features for Commercial Memorability Prediction

Created by
  • Haebom
Category
Empty

저자

Aleksandar Pramov

개요

본 논문은 MediaEval 2025 워크숍의 "Memorability: Predicting movie and commercial memorability" 태스크의 "Subtask 2: Commercial/Ad Memorability"에서 상업 광고의 기억 용이성을 예측하는 문제를 다룬다. Gemma-3 LLM을 기반으로 사전 계산된 시각적 특징(ViT)과 텍스트 특징(E5)을 다중 모드 투영을 통해 통합하는 멀티모달 융합 시스템을 제안한다. Low-Rank Adaptation (LoRA)을 사용하여 모델을 적응시켰다. 또한, 고도로 조정된 그래디언트 부스팅 트리 앙상블을 기반선으로 사용한다. 주요 기여는 전문가가 도출한 기억 용이성 측면에 기반한 LLM 생성 근거 프롬프트를 사용하여 융합 모델을 안내하는 것이다. LLM 기반 시스템은 최종 테스트 세트에서 기준선보다 더 큰 견고성과 일반화 성능을 보여준다.

시사점, 한계점

LLM을 활용한 멀티모달 융합 시스템을 통해 광고 기억 용이성 예측 성능 향상
LLM 생성 근거 프롬프트 사용을 통한 모델 안내는 중요한 기여
LoRA를 활용하여 모델 파라미터 효율성 개선
그래디언트 부스팅 트리 앙상블을 기반선으로 활용
논문은 특정 데이터셋(MediaEval 2025)에 대한 성능만을 보고하며, 다른 데이터셋에서의 일반화 성능은 추가 연구 필요
Gemma-3 LLM의 사용은 특정 모델 종속성을 가짐
시각적/텍스트적 특징 추출 방식(ViT, E5)의 영향에 대한 상세 분석은 부족
👍