Cet article analyse la capacité de plusieurs modèles de génération de code à gérer les dépendances à longue portée à l'aide de tâches de recherche de clés en plusieurs étapes, avec des fenêtres contextuelles pouvant atteindre 8 000 jetons. En utilisant des tâches de plus en plus difficiles, nous évaluons les performances des modèles de manière plus fine qu'un simple test de recherche d'aiguilles. En particulier, nous constatons que de nombreux modèles présentent des dégradations de performances allant jusqu'à deux ordres de grandeur lorsqu'une fonction fait référence à une autre fonction définie plus loin dans l'invite. Nous constatons également que les modèles utilisant des mécanismes d'attention par fenêtre glissante peinent à gérer les références plus éloignées qu'une seule fenêtre. Nous montrons que de simples modifications de l'invite à l'aide d'informations de graphe d'appels peuvent améliorer les performances de recherche en plusieurs étapes jusqu'à trois ordres de grandeur. Cette analyse souligne la nécessité d'une prise en compte plus approfondie des performances contextuelles des textes longs, au-delà de la recherche de faits uniques dans les documents.