Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Preparation Meets Opportunity: Enhancing Data Preprocessing for ML Training With Seneca

Created by
  • Haebom
Category
Empty

저자

Omkar Desai (Syracuse University), Ziyang Jiao (Syracuse University), Shuyi Pei (Samsung Semiconductor Inc.), Janki Bhimani (Florida International University), Bryan S. Kim (Syracuse University)

개요

본 논문은 현대 시스템에서 멀티미디어 머신 러닝 모델 동시 훈련 시 흔히 발생하는 병목 현상인 입력 데이터 전처리를 해결하기 위해, 캐시 분할 및 데이터 샘플링을 최적화하는 데이터 로딩 시스템 Seneca를 제안한다. Seneca는 데이터 저장 및 수집 파이프라인(DSI)을 위해 설계되었으며, 세 가지 형태의 데이터(인코딩, 디코딩, 증강)에 대한 최적의 캐시 분할을 위한 성능 모델과, 동시 작업 간의 상호 이점을 위해 캐싱된 데이터를 비캐싱된 데이터보다 우선적으로 제공하는 기법을 사용한다. PyTorch를 수정하여 구현되었으며, DNN 훈련을 위한 최첨단 캐싱 시스템들과 비교하여 makespan을 45.23% 감소시키고, 데이터 처리 처리량을 최대 3.45배 증가시키는 효과를 입증했다.

시사점, 한계점

시사점:
멀티미디어 머신 러닝 모델 동시 훈련 시 데이터 로딩 병목 현상 해결
캐시 분할 및 데이터 샘플링 최적화를 통한 훈련 시간 단축
최첨단 시스템 대비 성능 향상 (makespan 45.23% 감소, 처리량 최대 3.45배 증가)
PyTorch 기반 구현으로 활용 용이성
한계점:
논문에 구체적인 한계점 언급 없음
👍