Để Giải quyết tình trạng thiếu nghiên cứu về hiệu quả của các công cụ phát hiện lỗ hổng bảo mật gói Python, bài báo này giới thiệu PyVul, bộ công cụ đánh giá lỗ hổng bảo mật gói Python toàn diện đầu tiên. PyVul chứa 1.157 lỗ hổng đã được báo cáo công khai và được nhà phát triển xác minh, mỗi lỗ hổng liên quan đến một gói bị ảnh hưởng. Nó cung cấp các chú thích ở cấp độ cam kết và chức năng để phù hợp với nhiều kỹ thuật phát hiện khác nhau và đạt được độ chính xác 100% ở cấp độ cam kết và độ chính xác 94% ở cấp độ chức năng thông qua phương pháp làm sạch dữ liệu dựa trên LLM. Phân tích phân phối của PyVul cho thấy các lỗ hổng bảo mật gói Python trải rộng trên nhiều ngôn ngữ lập trình và kiểu, cho thấy các gói Python đa ngôn ngữ có thể dễ bị tấn công hơn. Chúng tôi phát hiện ra một khoảng cách đáng kể giữa hiệu suất của các công cụ hiện có và các yêu cầu để xác định các vấn đề bảo mật trong các gói Python thực tế. Thông qua việc xem xét thực nghiệm các CWE hàng đầu, chúng tôi đánh giá những hạn chế của các công cụ phát hiện hiện tại và nhấn mạnh nhu cầu cải tiến trong tương lai.