본 논문은 다중 요청 환경에서 일괄 추측적 디코딩의 총 처리량을 최적화하는 새로운 방법인 TETRIS를 제안합니다. 기존 방법들이 단일 요청 또는 요청 그룹 전체를 최적화하는 것과 달리, TETRIS는 병렬 검증 시 수락될 가장 유망한 임시 토큰을 (각 배치의 모든 요청에 대해) 적극적으로 선택하여 거부된 토큰을 줄이고 컴퓨팅 자원 낭비를 줄입니다. 제한된 추론 용량을 가진 서비스 제공업체에게 대규모 언어 모델(LLM)에서 빠른 추론을 달성하기 위한 효과적인 자원 활용은 특히 중요합니다. 기준 추측적 디코딩과 비교하여 TETRIS는 일관되게 높은 수락률과 제한된 추론 용량의 더 효과적인 활용을 제공합니다. 이론적 및 실험적으로 TETRIS가 기준 추측적 디코딩 및 임시 토큰을 동적으로 선택하는 기존 방법보다 우수하여 LLM에서 더 효율적인 일괄 추론을 가능하게 함을 보여줍니다.
시사점, 한계점
•
시사점:
◦
제한된 추론 용량을 가진 서비스 제공업체의 LLM 추론 효율을 크게 향상시킬 수 있습니다.