본 논문은 대규모 언어 모델(LLM) 추론 시스템의 필요성이 증가함에 따라, 자원 제약적인 환경에서도 LLM을 실행할 수 있는 저비용, 고가용성 LLM-as-a-Service(LLMaaS) 플랫폼인 AIvailable을 소개한다. AIvailable은 소프트웨어 정의 접근 방식을 사용하여 NVIDIA 및 AMD 장치를 포함한 이기종 및 레거시 GPU 노드에서 LLM을 실행하며, 각 노드의 VRAM을 최대한 활용하는 데 중점을 둔다. AIvailable은 CPU 폴백 없이 GPU 가속 추론을 수행하며, 단일 논리 단위를 통해 배포된 모든 LLM과 원활하게 상호 작용할 수 있는 통합 클라이언트 인터페이스를 제공한다. AIvailable은 사용자 접근을 위한 클라이언트 인터페이스, 보안 요청 라우팅 및 부하 분산을 위한 서비스 프런트엔드, 오케스트레이션, 배포 및 모니터링을 위한 SDAI 컨트롤러, 워크로드를 실행하는 이기종 GPU 노드의 서비스 백엔드로 구성된다. GPU 특정 세부 정보를 추상화하고 모델의 동적이고 VRAM 인지 할당 및 재할당을 제공함으로써, AIvailable은 효율적인 자원 사용과 장애 또는 워크로드 변동에 대한 복원력을 보장한다. 이 플랫폼은 학술 연구실, 사기업 및 기타 자원 제약적인 조직을 대상으로 하며, 레거시 GPU를 재사용하여 생성형 AI의 민주화를 돕기 위해 다양한 오픈 LLM을 지원한다.