본 논문은 비디오 객체 검출을 위한 새로운 네트워크인 Transformer-GraphFormer Blender Network (TGBFormer)를 제안합니다. 기존 CNN 기반 방법과 ViT 기반 방법의 한계를 극복하기 위해, 공간-시간 Transformer 모듈을 통해 장거리 의존성을 가진 전역적 표현을 생성하고, 공간-시간 GraphFormer 모듈을 통해 국소적 특징을 보완하는 국소적 표현을 생성합니다. 마지막으로, 전역-국소 특징 블렌더 모듈을 통해 두 표현을 적응적으로 결합하여 성능을 향상시킵니다. ImageNet VID 데이터셋에서 최첨단 성능(86.5% mAP, 41.0 FPS)을 달성했습니다.