En este artículo, presentamos ATTENTION2D, un novedoso método que aprovecha el procesamiento paralelo en las dimensiones de consulta y clave/valor para abordar la sobrecarga computacional y de memoria del mecanismo de autoatención en modelos basados en Transformers. ATTENTION2D logra aceleraciones de entrenamiento e inferencia relativamente rápidas en comparación con los métodos existentes, sin utilizar aproximaciones ni incurrir en sobrecarga computacional o de memoria adicional, y escala eficazmente en múltiples unidades de procesamiento. Los resultados experimentales con un modelo similar a GPT-3 muestran mejoras de rendimiento de hasta 5x y 9,4x respecto a Ring Attention en múltiples GPU NVIDIA A100 y H100.