Para abordar la falta de investigación sobre la eficacia de las herramientas de detección de vulnerabilidades de paquetes de Python, este artículo presenta PyVul, el primer conjunto completo de referencias de vulnerabilidades de paquetes de Python. PyVul contiene 1157 vulnerabilidades reportadas públicamente y verificadas por desarrolladores, cada una asociada a un paquete afectado. Proporciona anotaciones a nivel de confirmación y función para adaptarse a diversas técnicas de detección, y alcanza una precisión del 100 % a nivel de confirmación y del 94 % a nivel de función mediante un método de limpieza de datos basado en LLM. El análisis de distribución de PyVul revela que las vulnerabilidades de los paquetes de Python abarcan una amplia gama de lenguajes y tipos de programación, lo que sugiere que los paquetes de Python multilingües podrían ser más susceptibles a las vulnerabilidades. Descubrimos una brecha significativa entre el rendimiento de las herramientas existentes y los requisitos para identificar problemas de seguridad en paquetes de Python del mundo real. A través de una revisión empírica de las principales vulnerabilidades de código abierto (CWE), evaluamos las limitaciones de las herramientas de detección actuales y destacamos la necesidad de futuras mejoras.