Este artículo estudia las características de convergencia y el sesgo implícito del algoritmo de descenso de espejo (MD) en modelos que utilizan el mecanismo de atención softmax. En particular, para la familia de algoritmos MD que utilizan la potencia $p$-ésima de la norma $\ell_p$ como función potencial, demostramos que convergen hacia un SVM de margen duro generalizado con la función objetivo de la norma $\ell_p$ cuando se aplican a problemas de clasificación. A pesar de ser un problema no lineal y no convexo, la velocidad de convergencia es similar a la del GD convencional en modelos simples. Además, analizamos la dinámica de optimización conjunta de la matriz de consulta clave y el decodificador, y presentamos las condiciones para la convergencia a la solución SVM de margen duro, respectivamente. A través de experimentos con datos reales, demostramos que el algoritmo MD tiene un mejor rendimiento de generalización que el GD tradicional y se destaca en la selección óptima de tokens.