본 논문은 ReAct 기반의 LLM 에이전트의 한계점을 분석하고, 이를 극복하기 위한 새로운 reasoning backbone인 ReflAct를 제시합니다. ReAct는 사고와 행동을 번갈아 수행하지만, 내부 신념과 목표 정렬을 유지하지 못해 비일관적인 추론 단계를 생성하고, 에이전트의 실제 상태와 목표 간 불일치를 초래하는 문제점이 있습니다. ReflAct는 에이전트의 상태와 목표에 대한 지속적인 반성을 통해 다음 행동 계획을 넘어 상태에 기반한 의사결정과 지속적인 목표 정렬을 강화합니다. ALFWorld 환경에서 ReAct 대비 27.7% 향상된 평균 93.3%의 성공률을 달성하여, 핵심 추론 백본 강화의 중요성을 보여줍니다. 추가적인 향상 모듈(예: Reflexion, WKM)을 사용한 ReAct보다도 더 나은 성능을 보입니다.