Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Mechanisms of Non-Monotonic Scaling in Vision Transformers

Created by
  • Haebom
Category
Empty

저자

Anantha Padmanaban Krishna Kumar (Boston University)

개요

Vision Transformer(ViT)의 깊이가 깊어질수록 성능이 저하되는 현상에 대한 연구. ImageNet에서 ViT-S, ViT-B, ViT-L을 분석하여 깊이에 따른 표현 변화의 세 단계(Cliff-Plateau-Climb) 패턴을 발견. 성능 향상은 [CLS] 토큰의 역할 감소와 패치 토큰 간 분산된 합의에 기인함을 확인. 정보 혼합 패턴을 정량화하는 정보 스크램블링 지수를 개발하여, ViT-L에서 정보-태스크 간 트레이드오프가 ViT-B보다 10 레이어 늦게 발생하며, 추가 레이어는 성능 향상보다 정보 확산과 관련 있음을 밝힘. 제안된 정보 스크램블링 지수는 기존 모델 진단에 유용하며, 향후 아키텍처 설계를 위한 잠재적 목표를 제시.

시사점, 한계점

시사점:
Vision Transformer의 깊이 증가가 무조건적인 성능 향상을 보장하지 않음.
[CLS] 토큰의 역할 변화가 성능에 중요한 영향을 미침.
정보 스크램블링 지수를 활용한 모델 진단 및 아키텍처 설계 가능성 제시.
한계점:
특정 ViT 모델(ViT-S, ViT-B, ViT-L)에 대한 분석에 국한됨.
다른 아키텍처나 데이터셋에 대한 일반화 가능성은 추가 연구 필요.
세부적인 아키텍처 설계 지침은 제시되지 않음.
👍