Este artículo presenta un método novedoso para mejorar la precisión y robustez de la estimación de la postura de objetos mediante la integración de información visual y háptica. Para abordar los desafíos de estudios previos, que incluyen diversas pinzas, ubicaciones de sensores, falta de generalización entre la simulación y entornos reales, e inconsistencias en el seguimiento debido a la estimación independiente fotograma a fotograma, proponemos una representación táctil unificada que gestiona eficazmente múltiples implementaciones de pinzas y un rastreador de postura de objetos basado en transformadores visual-hápticos que integra a la perfección las entradas visuales y hápticas. El método propuesto logra una excelente generalización y robustez en diversas implementaciones, objetos y tipos de sensores (tanto sensores táctiles basados en taxones como en visión), superando significativamente a los rastreadores visuales de última generación en experimentos del mundo real. Además, demostramos que el seguimiento de objetos en tiempo real puede integrarse en la planificación del movimiento para permitir tareas de manipulación precisas.