Pour pallier le manque de recherche sur l'efficacité des outils de détection des vulnérabilités des packages Python, cet article présente PyVul, le premier benchmark complet de vulnérabilités des packages Python. PyVul contient 1 157 vulnérabilités signalées publiquement et vérifiées par les développeurs, chacune associée à un package affecté. Il fournit des annotations aux niveaux commit et fonction pour s'adapter à diverses techniques de détection, et atteint une précision de 100 % au niveau commit et de 94 % au niveau fonction grâce à une méthode de nettoyage des données basée sur LLM. L'analyse de la distribution de PyVul révèle que les vulnérabilités des packages Python couvrent un large éventail de langages et de types de programmation, ce qui suggère que les packages Python multilingues pourraient être plus vulnérables. Nous découvrons un écart significatif entre les performances des outils existants et les exigences d'identification des problèmes de sécurité dans les packages Python réels. Grâce à une analyse empirique des principaux CWE, nous évaluons les limites des outils de détection actuels et soulignons la nécessité d'améliorations futures.