본 논문은 장기간의 작업에서 최적이 아닌 행동의 누적 문제를 해결하기 위해, 대규모 언어 모델(LLM) 기반 에이전트 학습을 위한 새로운 프레임워크인 Step-Level Trajectory Calibration (STeCa)를 제안합니다. STeCa는 탐색 중 단계별 보상 비교를 통해 최적이 아닌 행동을 식별하고, LLM 기반의 반성을 사용하여 보정된 궤적을 생성합니다. 이후 성공적인 궤적과 함께 보정된 궤적을 강화 학습에 활용하여 에이전트의 학습을 향상시킵니다. 실험 결과, STeCa는 기존 방법보다 성능이 뛰어나며, 적시 보정을 통해 에이전트가 작업을 더욱 안정적으로 완료할 수 있음을 보여줍니다.