Este artículo aborda la importancia y los desafíos de reconocer conceptos abstractos (p. ej., justicia, libertad y solidaridad) en la comprensión automática de contenido de video. A diferencia de investigaciones previas que se han centrado en reconocer objetos, acciones y eventos concretos, este artículo se centra en comprender conceptos abstractos en video imitando el razonamiento abstracto humano. Proponemos la posibilidad de resolver este problema aprovechando modelos fundamentales desarrollados recientemente, examinamos diversos trabajos y conjuntos de datos relacionados, y sugerimos futuras líneas de investigación basadas en experiencias previas. Este enfoque es significativo no solo para el avance tecnológico, sino también para mejorar la coherencia del modelo con el razonamiento y los valores humanos.