본 논문은 softmax attention mechanism을 사용하는 모델에서 mirror descent (MD) 알고리즘의 수렴 특성과 implicit bias를 연구합니다. 특히, potential function으로 $\ell_p$-norm의 $p$-th power를 사용하는 MD 알고리즘군에 대해, 분류 문제에 적용 시 $\ell_p$-norm 목적 함수를 갖는 generalized hard-margin SVM으로 방향 수렴함을 증명합니다. 비선형적이고 비볼록적인 문제임에도 불구하고, 수렴 속도는 간단한 모델에서의 기존 GD와 비슷함을 보입니다. 또한, key-query matrix와 decoder의 joint optimization dynamics를 분석하여, 각각 hard-margin SVM 해로 수렴하는 조건을 제시합니다. 실제 데이터 실험을 통해 MD 알고리즘이 기존 GD보다 일반화 성능이 우수하며, 최적 토큰 선택에 탁월함을 보임을 확인합니다.