본 논문은 실시간 의사결정 작업에서 지연 시간과 성능 간의 절충 관계에 대한 최초의 체계적인 연구를 제시합니다. 대규모 언어 모델(LLM) 기반 에이전트는 고주파 거래 및 실시간 경쟁 게임과 같은 많은 실제 응용 프로그램에서 엄격한 지연 시간 제약 조건 하에 의사 결정을 내려야 하며, 더 빠른 응답은 더 높은 보상으로 직접 이어집니다. 이러한 지연 시간과 품질 간의 절충 관계의 중요성에도 불구하고, LLM 기반 에이전트의 맥락에서는 아직 충분히 탐구되지 않았습니다. 이를 위해 고주파 거래 시뮬레이션인 HFTBench와 경쟁 게임 플랫폼인 StreetFighter라는 두 가지 새로운 벤치마크를 도입하여 실시간 의사 결정 작업에서 지연 시간과 성능 간의 절충 관계를 분석합니다. 분석 결과, 최적의 지연 시간-품질 균형은 작업에 따라 다르며, 지연 시간을 줄이기 위해 품질을 희생하면 후속 성능이 크게 향상될 수 있음을 보여줍니다. 이 문제를 해결하기 위해 실시간 요구 사항에 따라 모델 크기와 양자화 수준을 동적으로 선택하는 적응형 프레임워크인 FPX를 제안합니다. FPX는 Street Fighter에서 승률을 최대 80% 향상시키고 거래에서 일일 수익률을 최대 26.52% 향상시켜 두 벤치마크 모두에서 최고의 성능을 달성합니다.