Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

A Survey of Generative Categories and Techniques in Multimodal Generative Models

Created by
  • Haebom
Category
Empty

저자

Longzhen Han, Awes Mubarak, Almas Baimagambetov, Nikolaos Polatidis, Thar Baker

개요

본 논문은 텍스트 생성에서 벗어나 이미지, 음악, 비디오, 인간 동작, 3D 객체 등 다양한 출력 모달리티를 포괄하는 멀티모달 생성 모델(MGMs)의 발전을 다룬다. 셀프 지도 학습(SSL), 전문가 혼합(MoE), 인간 피드백 기반 강화 학습(RLHF), 사고의 연쇄(CoT) 프롬프팅과 같은 기본적인 기술들이 어떻게 이러한 교차 모달리티 능력을 가능하게 하는지 살펴본다. 주요 모델, 구조적 트렌드 및 새로운 교차 모달리티 시너지 효과를 분석하고, 이전 가능한 기술과 해결되지 않은 과제를 강조한다. 또한, 모델 및 훈련 레시피의 일반적인 분류법을 기반으로 충실성, 구성성, 견고성에 초점을 맞춘 통합 평가 프레임워크를 제안하고, 벤치마크와 인간 연구에서 얻은 증거를 종합한다. 멀티모달 편향, 개인 정보 유출, 딥페이크, 허위 정보, 음악 및 3D 자산의 저작권 침해 등 신뢰성, 안전성, 윤리적 위험을 분석하고 완화 전략을 제시한다. 마지막으로, 현재의 능력 및 안전성 격차를 좁히기 위해 구조적 트렌드, 평가 프로토콜, 거버넌스 메커니즘을 공동 설계하고, 보다 일반적이고 제어 가능하며 책임감 있는 멀티모달 생성 시스템을 위한 중요한 경로를 제시한다.

시사점, 한계점

다양한 모달리티를 통합하는 멀티모달 생성 모델의 발전과 동향 제시.
SSL, MoE, RLHF, CoT 등 핵심 기술의 역할과 교차 모달리티 능력의 가능성을 분석.
충실성, 구성성, 견고성을 중심으로 한 통합 평가 프레임워크 제안.
멀티모달 편향, 개인 정보 유출, 딥페이크 등 윤리적 위험과 완화 전략 논의.
구조적 트렌드, 평가 프로토콜, 거버넌스 메커니즘의 공동 설계를 통해 안전성 및 성능 개선 방향 제시.
해결되지 않은 과제 및 안전성 격차를 완전히 메우기 위한 추가 연구 필요.
👍