Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

PAS: A Training-Free Stabilizer for Temporal Encoding in Video LLMs

Created by
  • Haebom
Category
Empty

저자

Bowen Sun, Yujun Cai, Ming-Hsuan Yang, Hang Wu, Yiwei Wang

개요

비디오 LLM은 프레임 타이밍의 작은 변화에도 민감하여, 멀티모달 RoPE를 통해 비디오에 확장된 로터리 위치 임베딩(Rotary Position Embeddings)으로 인해 발생하는 시간적 불일치성을 겪습니다. 이 논문은 이러한 불안정성이 인접 프레임에 서로 다른 요인을 곱하는 프레임 스케일의 리플을 나타내는 유도된 역 푸리에 시간 커널에서 기인함을 밝힙니다. 저자들은 PAS(Phase Aggregated Smoothing)라는 훈련이 필요 없는 간단한 메커니즘을 제시합니다. PAS는 작은 반대 위상 오프셋을 헤드에 적용하고 출력을 집계하여 시간 커널을 효과적으로 평활화하고 위치 인코딩 구조를 변경하지 않고 위상 민감도를 줄입니다. 실험 결과, PAS는 비디오 이해 벤치마크에서 일관된 개선을 보였으며, 계산 오버헤드는 무시할 만했습니다.

시사점, 한계점

시사점:
PAS는 Video LLM의 시간적 인코딩을 위한 견고성을 제공하는 플러그 앤 플레이 업그레이드입니다.
PAS는 훈련 없이 적용 가능하며, 계산 오버헤드가 적습니다.
PAS는 시간 커널을 평활화하여 어텐션의 Lipschitz 안정성을 향상시킵니다.
한계점:
논문의 구체적인 한계점은 제시되지 않았습니다.
👍