Cet article soutient que les benchmarks actuels pour la réponse aux requêtes complexes (CQA) sur les graphes de connaissances (KG) ne reflètent pas adéquatement leur complexité réelle. Une proportion significative de requêtes (jusqu'à 98 %) dans les benchmarks existants peut être réduite à des problèmes plus simples tels que la prédiction de liens, et les modèles CQA de pointe présentent une dégradation significative sur ces requêtes non simplifiables. Par conséquent, dans cet article, nous proposons un ensemble de benchmarks plus ambitieux, nécessitant une inférence multi-sauts et reflétant mieux les configurations KG réelles, exposant ainsi les limites des méthodes CQA existantes.