본 연구는 지속가능성 관련 소셜 미디어 커뮤니케이션 분석을 위해 시각 및 언어 분야의 대규모 기반 모델을 활용하는 다중 모드 분석 파이프라인을 제시한다. X (구 트위터)와 같은 플랫폼에서 기업 메시지의 진화, 다중 모드, 모호성 문제를 해결하기 위해, 대규모 언어 모델(LLM) 앙상블을 사용하여 17개의 지속가능발전목표(SDGs)와 기업 트윗의 주제 정렬을 주석 처리한다. 이는 비용이 많이 드는, 과제별 주석의 필요성을 피하고, 확장 가능한 방식으로 지속가능성 테마에 대한 명시적 및 암묵적 언급을 효율적으로 포착할 수 있는 소셜 미디어 데이터의 임시 주석자로서의 모델 가능성을 탐구한다. 이러한 텍스트 분석을 보완하기 위해, 의미론적 클러스터를 사용하는 시각적 이해 프레임워크 내에서 시각-언어 모델(VLM)을 활용하여 시각적 지속가능성 커뮤니케이션의 패턴을 밝힌다. 이 통합된 접근 방식은 SDG 참여의 부문별 차이, 시간적 추세, 기업 메시지, 환경, 사회, 지배구조(ESG) 위험 및 소비자 참여 간의 연관성을 보여준다. 자동 라벨 생성 및 의미론적 시각적 클러스터링 방법은 다른 도메인에도 광범위하게 적용 가능하며 대규모 소셜 미디어 분석을 위한 유연한 프레임워크를 제공한다.