동적 얼굴 표정 인식(DFER)은 비디오 시퀀스에서 얼굴 움직임의 시간적 변화를 모델링하여 감정 상태를 식별하는 것을 목표로 한다. DFER의 주요 과제는 많은 프레임으로 구성된 비디오에 단일 감정 레이블을 할당하는 many-to-one 레이블링 문제이다. 이 문제를 완화하기 위한 일반적인 전략은 DFER을 Multiple Instance Learning (MIL) 문제로 공식화하는 것이다. 그러나 MIL 기반 접근 방식은 감정 표현의 시각적 다양성과 시간적 역학의 복잡성으로 인해 어려움을 겪는다. 이 문제를 해결하기 위해, 본 논문은 의미론적 지침과 일관된 시간적 모델링을 통합하여 MIL 기반 DFER을 향상시키는 텍스트 기반 약지도 프레임워크인 TG-DFER을 제안한다. 시각-언어 사전 훈련(VLP) 모델을 통합하여 감정적 맥락에 대한 세분화된 텍스트 설명을 통해 의미론적 지침을 제공한다. 또한 시각적 프롬프트를 도입하여 풍부한 텍스트 감정 레이블을 시각적 인스턴스 특징과 정렬하여 세분화된 추론과 프레임 수준의 관련성 추정을 가능하게 한다. 마지막으로, 단기 얼굴 역학 및 장기 감정 흐름을 함께 캡처하도록 설계된 다중 입자 시간적 네트워크를 통해 시간의 흐름에 따른 일관된 감정적 이해를 보장한다. 광범위한 결과는 TG-DFER이 약지도 환경에서 향상된 일반화, 해석 가능성 및 시간적 민감도를 달성함을 보여준다.