Sign In

I/O in Machine Learning Applications on HPC Systems: A 360-degree Survey

Created by
  • Haebom
Category
Empty

저자

Noah Lewis, Jean Luca Bez, Surendra Byna

개요

본 논문은 2019년부터 2024년까지의 기간 동안 인공지능(AI) 머신러닝(ML) 모델 학습 및 추론을 위한 고성능 컴퓨팅(HPC) 시스템의 I/O 성능에 대한 연구 동향을 조사한 논문입니다. AI 애플리케이션의 데이터 중심적 특성으로 인해 HPC 시스템의 저장 및 I/O 서브시스템 성능이 중요하며, 기존 HPC 애플리케이션과 달리 ML 워크로드는 많은 수의 작은 임의 파일 액세스를 특징으로 합니다. 본 논문에서는 ML의 일반적인 단계, 사용 가능한 프로파일러 및 벤치마크, 오프라인 데이터 준비, 학습 및 추론 중 발생하는 I/O 패턴, 최신 ML 프레임워크에서 사용되는 I/O 최적화 및 최근 문헌에서 제안된 최적화를 검토하고, 추가 연구 개발을 위한 연구 격차를 제시합니다.

시사점, 한계점

시사점:
ML 워크로드의 I/O 패턴 변화가 HPC 시스템의 저장 및 I/O 서브시스템에 미치는 영향에 대한 심층적인 이해를 제공합니다.
ML 프레임워크 및 최근 연구에서 사용되는 I/O 최적화 기술을 종합적으로 검토합니다.
향후 연구 개발을 위한 중요한 연구 격차를 제시하여 HPC 시스템에서 ML I/O 성능 향상을 위한 방향을 제시합니다.
한계점:
6년이라는 제한된 기간 동안의 연구만을 검토하여 최신 동향을 완전히 반영하지 못할 수 있습니다.
특정 ML 프레임워크나 하드웨어 플랫폼에 치우친 연구가 포함될 수 있습니다.
제시된 연구 격차가 실제 연구로 이어지고 성과를 거둘 수 있을지는 불확실합니다.
👍