Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Energy Consumption of Dataframe Libraries for End-to-End Deep Learning Pipelines:A Comparative Analysis

Created by
  • Haebom
Category
Empty

저자

Punit Kumar, Asif Imran, Tevfik Kosar

개요

본 논문은 딥러닝(DL) 훈련 및 추론 파이프라인에 내장된 세 가지 주요 Python 데이터 조작 라이브러리인 Pandas, Polars, Dask의 성능을 비교 분석합니다. 이 연구는 데이터 로딩, 전처리, 배치 피딩과 같은 중요한 단계에서 이러한 라이브러리가 상당한 GPU 워크로드와 어떻게 상호 작용하는지 연구하여 기존 문헌의 격차를 해소합니다. 저자들은 다양한 머신 러닝 모델과 데이터 세트에 걸쳐 런타임, 메모리 사용량, 디스크 사용량, 에너지 소비(CPU 및 GPU 모두)를 포함한 주요 성능 지표를 측정했습니다.

시사점, 한계점

Pandas, Polars, Dask를 딥러닝 파이프라인에서 사용하는 경우 성능 비교 분석을 제공.
데이터 로딩, 전처리, 배치 피딩 등 GPU 워크로드와 관련된 단계에 초점을 맞춰, 딥러닝 워크로드와의 상호작용 분석.
런타임, 메모리 사용량, 디스크 사용량, 에너지 소비 등 다양한 성능 지표를 측정하여 비교.
특정 라이브러리(Pandas, Polars, Dask)에 대한 성능 비교에 국한되어 다른 데이터 처리 라이브러리는 포함되지 않음.
다양한 머신러닝 모델과 데이터셋을 사용했지만, 모든 종류의 딥러닝 모델 및 데이터셋에 대한 일반화는 어려울 수 있음.
실험 환경(하드웨어 및 소프트웨어 구성)에 따라 결과가 달라질 수 있음.
👍