ReflexGrad는 경험으로부터 학습하고, 과제별 훈련 없이 다양한 과제에 걸쳐 일반화하는 에이전트를 개발하기 위한 새로운 아키텍처입니다. 이 아키텍처는 LLM 기반의 계층적 TODO 분해를 통한 전략적 계획, 최근 행동 패턴 분석을 통한 실패 원인 파악 및 시행 내 학습을 위한 기록 인식 인과적 반성, 체계적인 개선을 위한 gradient 기반 최적화를 긴밀하게 결합합니다. ReflexGrad는 사전 작업 경험, 미세 조정 또는 하드 코딩된 유사성 메트릭 없이 순수한 LLM 의미론적 추론을 통해 진정한 제로샷 일반화를 달성합니다. ALFWorld 벤치마크 과제에서 ReflexGrad는 사전 작업 경험이나 데모 없이 시행 0에서 67%의 제로샷 성공률을 보였습니다.