자연어 설명을 기반으로 비디오 내의 대상 객체를 찾는 Spatio-Temporal Video Grounding (STVG) 분야에서, 기존 모델들이 다양한 객체와 복잡한 질의에 대한 대응력이 부족하다는 점을 지적하며, 이를 해결하기 위해 새로운 벤치마크 OmniGround를 제안한다. OmniGround는 81개의 카테고리를 포함하는 3,475개의 비디오와 복잡한 실세계 질의를 포함하며, 고품질 라벨을 위해 Forward-Backward-Refinement 주석 파이프라인을 사용한다. 또한, 데이터셋 품질을 평가하기 위한 DeepSTG 평가 프레임워크를 도입하고, 이러한 한계를 극복하기 위해 학습이 필요 없는 2단계 프레임워크 PG-TAF를 제안하여 성능 향상을 보인다.