Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Conjuring Positive Pairs for Efficient Unification of Representation Learning and Image Synthesis

Created by
  • Haebom
Category
Empty

저자

Imanol G. Estepa, Jesus M. Rodriguez-de-Vera, Ignacio Sarasua, Bhalaji Nagarajan, Petia Radeva

개요

본 논문은 시각 데이터 이해를 위한 표현 학습과 생성 모델링의 통합을 목표로 하는 새로운 통합 자기 지도 학습(SSL) 프레임워크인 Sorcen을 제안합니다. 기존의 통합 SSL 방법들은 외부 토크나이저에 의존하는 반면, Sorcen은 상호작용적인 대조-재구성 목적 함수를 도입하여 추가적인 이미지 자르기나 증강 없이도 학습이 가능합니다. Sorcen은 의미 토큰 공간에서 '에코 샘플'을 생성하여 대조적인 양성 쌍을 형성하며, 사전 계산된 토큰만을 사용하여 온라인 토큰 변환 과정을 제거함으로써 계산 비용을 크게 줄입니다. ImageNet-1k 실험 결과, Sorcen은 기존 최고 성능 모델보다 선형 프로빙, 무조건 이미지 생성, 몇 샷 학습, 전이 학습에서 각각 0.4%, 1.48 FID, 1.76%, 1.53% 향상된 성능을 보였으며, 60.8% 더 효율적임을 보였습니다. 또한, 단일 이미지 자르기 기반의 MIM 최고 성능 모델을 능가하는 선형 프로빙 성능과 무조건 이미지 생성에서 최고 성능을 달성했습니다.

시사점, 한계점

시사점:
외부 토크나이저 없이 효율적인 통합 SSL 프레임워크를 제시.
기존 통합 SSL 및 단일 이미지 자르기 기반 MIM 모델 대비 성능 향상.
계산 효율성 증대 (60.8% 향상).
선형 프로빙, 무조건 이미지 생성, 몇 샷 학습, 전이 학습에서 모두 성능 향상.
한계점:
ImageNet-1k 데이터셋에 대한 실험 결과만 제시되어 다른 데이터셋으로의 일반화 가능성은 추가 검증 필요.
Sorcen의 에코 대조 기법의 효과에 대한 이론적 분석 부족.
구체적인 하드웨어 사양 및 학습 시간에 대한 정보 부족.
👍