Dans cet article, nous présentons ATTENTION2D, une nouvelle méthode qui exploite le traitement parallèle des requêtes et des clés/valeurs pour réduire la surcharge de calcul et de mémoire du mécanisme d'auto-attention dans les modèles basés sur Transformer. ATTENTION2D permet des accélérations d'apprentissage et d'inférence relativement rapides par rapport aux méthodes existantes, sans recourir à des approximations ni engendrer de surcharge de calcul ou de mémoire supplémentaire, et s'adapte efficacement à de nombreuses unités de traitement. Les résultats expérimentaux obtenus avec un modèle de type GPT-3 montrent des améliorations de performances jusqu'à 5x et 9,4x par rapport à Ring Attention sur plusieurs GPU NVIDIA A100 et H100.