Este artículo analiza exhaustivamente las tendencias de investigación en mecanismos de atención eficiente para abordar la complejidad cuadrática de tiempo y memoria de los mecanismos de autoatención en arquitecturas basadas en Transformers, el marco fundamental de los modelos lingüísticos a gran escala. Específicamente, nos centramos en dos enfoques principales: atención lineal y atención dispersa, integrando innovaciones algorítmicas y consideraciones de hardware. Mediante el análisis de casos donde se han aplicado mecanismos de atención eficiente a modelos lingüísticos preentrenados a gran escala, tanto en arquitecturas compuestas exclusivamente por atención eficiente como en diseños híbridos que combinan componentes locales y globales, buscamos sentar las bases para el diseño de modelos lingüísticos escalables y eficientes.