본 논문은 복잡한 상호작용 문제 해결에 뛰어난 능력을 보이는 대규모 언어 모델(LLM) 에이전트에 대해 다룹니다. 기존 LLM 에이전트는 주로 자연어 계획을 생성하여 추론을 안내하지만, 이는 장황하고 비효율적이며 특정 작업에 맞춰져 유사한 작업 간 일반화 능력을 제한합니다. 본 논문에서는 추론의 구조적 논리를 포착하기 위해 의사 코드 스타일 계획(P-code Plan)을 탐구하고, 이를 통해 LLM 에이전트의 일반화 능력과 효율성이 향상됨을 발견했습니다. 이러한 발견에 착안하여, 효과적인 에이전트 학습을 위한 의사 코드 스타일 계획 유도 선호도 최적화 방법(PGPO)을 제안합니다. 두 가지 계획 지향적 보상을 사용하는 PGPO는 LLM 에이전트가 고품질 P-code Plan과 후속 추론을 생성하는 능력을 더욱 향상시킵니다. 실험 결과, PGPO는 대표적인 에이전트 벤치마크에서 우수한 성능을 달성하고 기존 최고 성능 기준을 능가하며, 추론 중 행동 오류 및 누락 감소에 대한 PGPO의 장점을 보여줍니다.