Este artículo analiza la capacidad de varios modelos de generación de código para gestionar dependencias de largo alcance mediante tareas de búsqueda de claves de varios pasos con ventanas de contexto de hasta 8.000 tokens de longitud. Al utilizar tareas progresivamente más difíciles, evaluamos el rendimiento del modelo de una manera más detallada que una simple prueba de "búsqueda de una aguja". En particular, encontramos que muchos modelos presentan degradaciones de rendimiento de hasta dos órdenes de magnitud cuando una función hace referencia a otra función definida posteriormente en el mensaje. También encontramos que los modelos que utilizan mecanismos de atención de ventana deslizante tienen dificultades para gestionar referencias que están más lejos que un tamaño de ventana única. Demostramos que las modificaciones simples del mensaje utilizando información del grafo de llamadas pueden mejorar el rendimiento de la búsqueda de varios pasos hasta en tres órdenes de magnitud. Este análisis destaca la necesidad de una consideración más profunda del rendimiento del contexto de texto largo más allá de la recuperación de un solo hecho en los documentos.