En este artículo, proponemos un marco de regularización de alineación textual espuria (StarFT) para abordar el problema de la fácil degradación del aprendizaje robusto de la representación en modelos de cero disparos, como CLIP, al ajustarse con precisión en tareas posteriores. Si bien estudios previos se han centrado en el movimiento del dominio, este artículo se centra en la tendencia de los modelos ajustados con datos limitados a aprender características sin significado para los humanos, como el fondo o la textura. StarFT mejora la robustez de los modelos de cero disparos mediante una regularización que previene el aprendizaje de características sin significado, generando descripciones textuales alternativas que enfatizan características potencialmente confusas. Los resultados experimentales muestran que StarFT supera a otros modelos de referencia robustos ajustados con precisión, especialmente en el escenario de movimiento del grupo de aves acuáticas.