본 논문은 대규모 언어 모델(LLM)의 추론 속도 향상 가능성을 탐구합니다. 기존 연구는 LLM의 추론 성능 향상을 위해 컴퓨팅 자원을 증가시키는 데 초점을 맞추었지만, 이는 추론 시간 증가로 이어집니다. 본 논문은 인간의 경험 축적을 통한 효율적인 문제 해결 능력에 착안하여, LLM이 관련 작업 반복 노출을 통해 추론 속도를 높일 수 있는지, 그리고 어떻게 달성할 수 있는지를 조사합니다. 이를 위해 작업 관련성 및 컴퓨팅 자원 할당 측면에서 LLM 추론 속도 향상 문제를 체계적으로 공식화하고, 적응형 컴퓨팅 자원 할당 및 메모리 메커니즘을 기반으로 하는 SpeedupLLM이라는 이론적으로 보장된 프레임워크를 제안합니다. 다양한 질문 유사도 수준, 메모리 방법 및 추론 방법에 걸쳐 광범위한 실험을 수행하여, 적절한 메모리 및 추론 방법을 사용할 경우 최대 56%의 컴퓨팅 비용 절감 효과를 보임을 보여줍니다.