Cet article propose GLU Attention, un nouveau mécanisme d'attention qui utilise les GLU (Gated Linear Units) pour améliorer les performances des mécanismes d'attention existants. GLU Attention introduit la non-linéarité dans la valeur d'attention afin d'améliorer les performances du modèle et la vitesse de convergence, et présente un coût de calcul minimal sans paramètres supplémentaires. Son efficacité a été démontrée pour les modes texte et visuel, et il est également facile à intégrer à d'autres technologies telles que Flash Attention, RoPE et GQA. Il est disponible en open source sur GitHub.