Cet article analyse en détail les tendances de la recherche sur les mécanismes d'attention efficaces afin de traiter la complexité quadratique, en temps et en mémoire, des mécanismes d'auto-attention dans les architectures basées sur Transformer, le cadre fondamental des modèles de langage à grande échelle. Plus précisément, nous nous concentrons sur deux approches majeures – l'attention linéaire et l'attention parcimonieuse – intégrant innovations algorithmiques et considérations matérielles. En analysant des cas d'application de mécanismes d'attention efficaces à des modèles de langage pré-entraînés à grande échelle, tant pour des architectures composées uniquement d'attention efficace que pour des conceptions hybrides combinant des composants locaux et globaux, nous cherchons à fournir les bases de la conception de modèles de langage évolutifs et efficaces.