본 논문은 딥러닝(DL) 훈련 및 추론 파이프라인에 내장된 세 가지 주요 Python 데이터 조작 라이브러리인 Pandas, Polars, Dask의 성능을 비교 분석합니다. 이 연구는 데이터 로딩, 전처리, 배치 피딩과 같은 중요한 단계에서 이러한 라이브러리가 상당한 GPU 워크로드와 어떻게 상호 작용하는지 연구하여 기존 문헌의 격차를 해소합니다. 저자들은 다양한 머신 러닝 모델과 데이터 세트에 걸쳐 런타임, 메모리 사용량, 디스크 사용량, 에너지 소비(CPU 및 GPU 모두)를 포함한 주요 성능 지표를 측정했습니다.