Supporting the development of Machine Learning for fundamental science in a federated Cloud with the AI_INFN platform
Created by
Haebom
저자
Lucio Anderlini, Matteo Barbetti, Giulio Bianchini, Diego Ciangottini, Stefano Dal Pra, Diego Michelotto, Carmelo Pellegrino, Rosa Petrini, Alessandro Pascolini, Daniele Spiga
개요
본 논문은 이탈리아 국립핵물리연구소(INFN)의 AI_INFN 프로젝트의 진행 상황을 보고합니다. AI_INFN 프로젝트는 INFN 내에서 머신러닝(ML) 기술 채택을 촉진하기 위해, 특히 GPU 가속기 접근을 위한 자원 제공 및 오케스트레이션 지원에 중점을 두고 있습니다. 클라우드 네이티브 솔루션을 활용하여 INFN 클라우드 환경에서 하드웨어 가속기를 효율적으로 공유하고, 연구 활동 다양성을 유지하는 것을 목표로 합니다. 본 논문에서는 GPU 기반 데이터 분석 워크플로우 개발 및 이기종 분산 컴퓨팅 자원(Virtual Kubelets 및 interLink 제공자를 이용한 연합 환경 포함) 상에서의 확장성을 용이하게 하도록 설계된 Kubernetes 플랫폼의 구축 현황을 소개합니다.
시사점, 한계점
•
시사점:
◦
Kubernetes 기반 플랫폼을 활용하여 GPU 가속기를 효율적으로 관리하고 공유하는 방안 제시.
◦
이기종 분산 컴퓨팅 환경에서 ML 기반 데이터 분석 워크플로우의 확장성을 향상시키는 데 기여.
◦
INFN과 같은 대규모 연구기관에서 ML 기술 도입을 위한 효과적인 인프라 구축 방안 제시.
•
한계점:
◦
구체적인 성능 측정 결과나 비교 분석이 부족.
◦
Virtual Kubelets 및 interLink provider와의 통합에 대한 자세한 설명 부족.