본 논문은 LLM(Large Language Model)의 다양한 계층(tier) 중 작업에 적합한 계층을 자동으로 선택하여 비용과 성능 간의 균형을 맞추는 프레임워크인 LLM 자동 변속기(LLM-AT)를 제안합니다. LLM-AT는 Starter, Generator, Judge 세 가지 모듈로 구성됩니다. Starter는 주어진 질문에 대한 초기 LLM 계층을 선택하고, Generator는 선택된 계층의 LLM을 사용하여 응답을 생성하며, Judge는 응답의 유효성을 평가합니다. 응답이 유효하지 않으면 LLM-AT는 반복적으로 상위 계층 모델로 업그레이드하여 새로운 응답을 생성하고 재평가합니다. 또한, 과거 추론 기록에서 상위 k개의 유사한 질문에 대한 유효 응답률을 계산하여 각 LLM 계층의 예상 정확도를 추정하는 정확도 추정기를 제안합니다. 실험 결과, LLM-AT는 비용을 절감하면서 우수한 성능을 달성함을 보여줍니다.