본 논문은 파이썬 패키지 취약성 검출 도구의 효과성에 대한 연구 부족을 해결하기 위해, 최초의 포괄적인 파이썬 패키지 취약성 벤치마크 세트인 PyVul을 소개한다. PyVul은 공개적으로 보고되고 개발자가 검증한 1,157개의 취약성을 포함하며, 각 취약성은 영향을 받는 패키지와 연결되어 있다. 다양한 검출 기법을 수용하기 위해 커밋 및 함수 수준에서 주석을 제공하며, LLM 기반 데이터 정제 방법을 통해 커밋 수준 100%, 함수 수준 94%의 정확도를 달성했다. PyVul의 분포 분석을 통해 파이썬 패키지의 취약성이 다양한 프로그래밍 언어와 유형을 포함하며, 다중 언어 파이썬 패키지가 취약성에 더 취약할 수 있음을 보여준다. 기존 도구의 성능과 실제 파이썬 패키지의 보안 문제 식별 요구사항 간의 상당한 차이를 밝히고, 상위 CWEs에 대한 경험적 검토를 통해 현재 검출 도구의 한계를 진단하고 미래 발전의 필요성을 강조한다.