LLM 기반 에이전트의 자율적인 복잡한 작업 수행 능력을 향상시키기 위해, 정적 데이터셋 기반 학습의 한계를 지적하고, 환경과의 직접적인 상호작용을 통한 강화 학습의 중요성을 강조합니다. Generation-Execution-Feedback (GEF) 루프를 통해 환경이 에이전트에게 과제를 생성하고, 에이전트의 행동에 대한 관찰을 반환하며, 평가 피드백을 제공하는 반복적인 학습 과정을 제시합니다. 본 논문은 GEF 루프의 각 단계(과제 생성, 과제 실행, 피드백)에 따른 환경 확장 방법을 체계적으로 검토하고, 벤치마크, 구현 전략 및 응용 분야를 분석하며, 에이전트 지능 발전을 위한 미래 연구 방향을 제시합니다.