En este artículo, señalamos que las técnicas actuales de Segmentación de Objetos de Vídeo (VOS) se basan en la coincidencia de apariencia y son vulnerables a cambios visuales rápidos, oclusiones y cambios complejos de escena. Por ello, proponemos un marco de segmentación basado en conceptos: Segment Concept (SeC). SeC integra señales visuales en los fotogramas mediante modelos de lenguaje visual a gran escala (LVLM) y construye un potente análisis conceptual previo para generar una representación de alta dimensión centrada en el objeto. Durante el proceso de inferencia, SeC genera una representación semántica completa del objeto objetivo a partir de los fotogramas procesados, lo que permite una segmentación robusta de los fotogramas subsiguientes. Además, ajusta dinámicamente el equilibrio entre la inferencia semántica basada en LVLM y la coincidencia de características mejorada según la complejidad de la escena. Para evaluar rigurosamente los métodos VOS en escenarios que requieren inferencia conceptual de alta dimensión y una sólida comprensión semántica, presentamos un nuevo punto de referencia de segmentación de objetos de vídeo en escenarios semánticamente complejos (SeCVOS). SeCVOS consta de 160 vídeos multiescenario anotados manualmente, diseñados para desafiar a los modelos con cambios significativos de apariencia y transiciones dinámicas entre escenas. SeC establece un nuevo estado del arte en la segmentación de objetos de vídeo consciente del concepto, logrando un rendimiento 11,8 puntos mejor que SAM 2.1 en SeCVOS.