본 논문은 기존의 시각적 감정 이해(VSU) 연구가 얼굴 표정과 같은 명시적 정보에만 의존하여 암시적 정보(행동, 사물 관계, 배경 등)를 간과하는 문제점을 지적한다. 이를 해결하기 위해, 명시적 및 암시적 정보를 모두 활용하여 영상 내 시각적 감정을 식별, 위치 파악, 속성 부여하는 새로운 Omni-SILA 과제를 제안한다. Omni-SILA 과제의 핵심 과제는 장면 정보 모델링과 명시적 정보를 넘어선 암시적 정보 강조로, 이를 위해 암시적 정보 강화 인과 MoE(ICM) 접근 방식을 제시한다. ICM은 장면 균형 MoE(SBM)와 암시적 정보 강화 인과(IEC) 블록으로 구성되어 각각 장면 정보 모델링과 암시적 정보 강조를 수행한다. 자체 제작한 명시적 및 암시적 Omni-SILA 데이터셋을 사용한 실험 결과, 제안된 ICM 접근 방식이 기존의 Video-LLM보다 우수한 성능을 보임을 보여준다.