본 논문은 대규모 언어 모델(LLM)이 복잡한 작업을 한 번에 해결하는 데 어려움을 겪는다는 점을 지적하며, 성공적인 작업 수행을 위해 환경과의 반복적인 상호 작용 및 피드백이 필요하다는 점을 강조합니다. 기존 접근 방식은 길이 일반화에 어려움을 겪거나 이전 정보를 활용하지 않고 단순히 재시도하는 데 의존하는 한계를 가지고 있습니다. 이에 본 논문에서는 FTTT라는 새로운 패러다임을 제시하여 피드백 활용을 테스트 시간 최적화 문제로 공식화합니다. 또한, 피드백을 효과적으로 활용하기 위한 학습 가능한 테스트 시간 최적화기인 OpTune을 제안합니다. 네 가지 추론 데이터셋에서 두 개의 LLM에 대한 실험을 통해 FTTT와 OpTune이 우수한 확장성과 성능을 달성함을 보여줍니다.