Sign In

Rethinking Visual Intelligence: Insights from Video Pretraining

Created by
  • Haebom
Category
Empty

저자

Pablo Acuaviva, Aram Davtyan, Mariam Hassan, Sebastian Stapf, Ahmad Rahimi, Alexandre Alahi, Paolo Favaro

개요

대규모 언어 모델(LLM)은 언어 영역에서 사전 훈련을 통해 적은 감독으로 새로운 문제에 빠르게 적응할 수 있음을 보여주었습니다. 그러나 이러한 성공은 LLM을 포함한 모델이 구성 이해, 샘플 효율성 및 일반적인 문제 해결에 여전히 어려움을 겪고 있는 시각적 영역에서는 효과적으로 나타나지 않았습니다. 본 연구에서는 이 격차를 해소하기 위한 유망한 방향으로 비디오 확산 모델(VDM)을 조사합니다. 시공간 데이터에 대한 사전 훈련은 이러한 모델에 구조와 역학에 대한 강력한 귀납적 편향을 부여하며, 이는 광범위한 작업 적응성을 지원할 수 있다고 가정합니다. 이를 테스트하기 위해 사전 훈련된 LLM과 사전 훈련된 VDM 모두에 경량 어댑터를 장착하고 자연 모달리티에서 작업을 제시하는 제어된 평가를 설계했습니다. ARC-AGI, ConceptARC, 시각적 게임, 경로 계획 및 셀룰러 오토마타를 포함한 벤치마크에서 VDM은 언어 모델보다 높은 데이터 효율성을 보여줍니다. 종합적으로, 본 결과는 비디오 사전 훈련이 시각적 기반 모델을 향한 진전을 지원하는 귀납적 편향을 제공함을 나타냅니다.

시사점, 한계점

비디오 확산 모델(VDM)은 시각적 영역에서 언어 모델(LLM)보다 더 높은 데이터 효율성을 보이며, 시각적 작업에 대한 더 나은 성능을 보여줍니다.
VDM의 사전 훈련은 구조와 역학에 대한 강력한 귀납적 편향을 제공하여 다양한 시각적 작업에 적응할 수 있는 기반을 마련합니다.
본 연구는 ARC-AGI, ConceptARC, 시각적 게임, 경로 계획, 셀룰러 오토마타 등 다양한 벤치마크를 통해 VDM의 성능을 평가했습니다.
본 연구는 VDM의 성능 향상을 보여주지만, 구체적인 한계점이나 개선 방향에 대한 정보는 논문에 명시되어 있지 않습니다.
👍