본 논문은 시각 및 촉각 정보의 통합을 통해 물체 자세 추정의 정확성과 견고성을 향상시키는 새로운 방법을 제시합니다. 기존 연구들의 한계점인 다양한 그리퍼, 센서 배치, 시뮬레이션-실제 환경 간의 일반화 부족, 그리고 프레임 단위 독립적인 추정으로 인한 추적의 비일관성 문제를 해결하기 위해, 다중 그리퍼 구현을 효과적으로 처리하는 통합된 촉각 표현과 시각 및 촉각 입력을 원활하게 통합하는 비주얼-햅틱 트랜스포머 기반 물체 자세 추적기를 제안합니다. 제안된 방법은 다양한 구현, 물체, 센서 유형(택셀 기반 및 시각 기반 촉각 센서 모두)에 걸쳐 우수한 일반화 및 견고성을 달성하며, 실제 실험에서 최첨단 시각 추적기를 크게 능가하는 성능을 보여줍니다. 또한, 실시간 물체 추적 결과를 동작 계획에 통합하여 정밀한 조작 작업을 수행할 수 있음을 보여줍니다.