본 논문은 강화학습(Reinforcement Learning, RL)의 데이터 효율성과 일반화 성능 저하 문제를 해결하기 위해, 대규모 언어 모델(Large Language Model, LLM)을 통합한 새로운 아키텍처인 에이전트 에피소드 제어(Agentic Episodic Control, AEC)를 제안합니다. AEC는 LLM을 활용하여 관측값을 언어 기반 임베딩으로 매핑하고, 에피소드 메모리에 저장하여 고가치 경험을 빠르게 검색합니다. 또한, 월드 그래프 작업 메모리 모듈을 사용하여 구조화된 환경 역학을 포착하여 관계적 추론을 향상시키고, 경량의 중요 상태 검출기를 통해 에피소드 메모리 재호출과 월드 모델 기반 탐색 간의 동적 조정을 수행합니다. BabyAI-Text 벤치마크 작업에서 AEC는 기존 기준 모델보다 상당한 성능 향상을 보였으며, 특히 복잡한 일반화 작업에서 최고 기준 모델보다 최대 76% 향상된 성능을 나타냈습니다. 이는 RL의 시행착오 학습과 LLM의 의미론적 사전 지식을 결합하여 데이터 효율성과 일반화 성능을 모두 향상시킨 결과입니다.