Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

AIvailable: A Software-Defined Architecture for LLM-as-a-Service on Heterogeneous and Legacy GPUs

Created by
  • Haebom
Category
Empty

저자

Pedro Antunes, Ana Rita Ortigoso, Gabriel Vieira, Daniel Fuentes, Luis Frazao, Nuno Costa, Antonio Pereira

개요

본 논문은 대규모 언어 모델(LLM) 추론 시스템의 필요성이 증가함에 따라, 자원 제약적인 환경에서도 LLM을 실행할 수 있는 저비용, 고가용성 LLM-as-a-Service(LLMaaS) 플랫폼인 AIvailable을 소개한다. AIvailable은 소프트웨어 정의 접근 방식을 사용하여 NVIDIA 및 AMD 장치를 포함한 이기종 및 레거시 GPU 노드에서 LLM을 실행하며, 각 노드의 VRAM을 최대한 활용하는 데 중점을 둔다. AIvailable은 CPU 폴백 없이 GPU 가속 추론을 수행하며, 단일 논리 단위를 통해 배포된 모든 LLM과 원활하게 상호 작용할 수 있는 통합 클라이언트 인터페이스를 제공한다. AIvailable은 사용자 접근을 위한 클라이언트 인터페이스, 보안 요청 라우팅 및 부하 분산을 위한 서비스 프런트엔드, 오케스트레이션, 배포 및 모니터링을 위한 SDAI 컨트롤러, 워크로드를 실행하는 이기종 GPU 노드의 서비스 백엔드로 구성된다. GPU 특정 세부 정보를 추상화하고 모델의 동적이고 VRAM 인지 할당 및 재할당을 제공함으로써, AIvailable은 효율적인 자원 사용과 장애 또는 워크로드 변동에 대한 복원력을 보장한다. 이 플랫폼은 학술 연구실, 사기업 및 기타 자원 제약적인 조직을 대상으로 하며, 레거시 GPU를 재사용하여 생성형 AI의 민주화를 돕기 위해 다양한 오픈 LLM을 지원한다.

시사점, 한계점

시사점:
이기종 GPU 환경에서 LLM 추론을 가능하게 하여 자원 활용도를 극대화함.
저비용, 고가용성 LLMaaS 플랫폼으로, 접근성이 높은 LLM 환경을 제공함.
레거시 GPU를 활용하여 생성형 AI의 접근성을 높이는 데 기여함.
GPU 특정 세부 정보를 추상화하여 사용 편의성을 높임.
장애 및 워크로드 변동에 대한 복원력을 제공함.
한계점:
논문에서 구체적인 성능 지표나 성능 비교에 대한 정보가 부족함.
구현 세부 사항이나 시스템 아키텍처에 대한 깊이 있는 설명이 부족함.
특정 LLM 모델에 대한 성능 최적화가 필요한지에 대한 언급이 없음.
보안 측면에서의 구체적인 구현이나 고려 사항에 대한 정보가 부족함.
확장성 및 대규모 트래픽 처리에 대한 정보가 부족함.
👍