Bench360은 사용자가 로컬 환경에서 대규모 언어 모델(LLM) 추론을 벤치마킹할 수 있도록 설계된 프레임워크입니다. 사용자 정의 작업, 데이터 세트, 관련 메트릭을 정의하고, 다양한 사용 시나리오(싱글 스트림, 배치 및 서버), 추론 엔진, 양자화 수준에서 LLM을 자동으로 벤치마킹합니다. 시스템 메트릭(계산 성능, 리소스 사용량, 배포)과 작업별 메트릭(ROUGE, F1 점수, 정확도)을 추적합니다. 일반 지식 및 추론, QA, 요약, Text-to-SQL의 4가지 일반적인 LLM 작업에 대해 3개의 하드웨어 플랫폼과 4개의 최첨단 추론 엔진을 대상으로 Bench360을 시연했습니다.