본 논문은 대규모 언어 모델(LLM) 기반 웹 에이전트의 성능 향상을 다룬다. 기존 연구들이 수작업으로 웹 에이전트 전략(프롬프트 템플릿, 다중 에이전트 시스템, 검색 방법 등) 및 컨텍스트 내 예시를 설계하여 일반화에 어려움을 겪는 것과 달리, 본 논문은 LLM의 능력과 웹 에이전트의 관찰/행동 공간을 정렬하여 성능을 향상시켰다. LLM의 사전 훈련 데이터와 웹 에이전트의 관찰/행동 표현 간의 불일치 문제를 해결하는 데 초점을 맞추어, WebArena 벤치마크에서 기존 최고 성능 및 동시 연구 결과보다 상당한 성능 향상을 달성하였다. 이는 컨텍스트 내 예시, 새로운 에이전트 역할, 온라인 피드백 또는 검색 전략 없이 관찰 및 행동 공간 정렬만으로 이루어낸 결과이다. AgentOccam이라는 에이전트를 통해 웹 작업에서 LLM의 제로샷 성능과 관찰 및 행동 공간 조정의 중요성을 강조한다.