본 논문은 대규모 언어 모델(LLM)의 행동 및 변화 추론(RAC) 능력을 평가하기 위한 새로운 벤치마크인 ActionReasoningBench를 제시합니다. ActionReasoningBench는 8개의 도메인과 최대 19개의 행동 순서에 대한 질문을 포함하며, 유창성 추적, 상태 추적, 행동 실행 가능성, 행동의 효과, 수치적 RAC, 복합 질문 등 6가지 주요 RAC 차원에 걸쳐 LLM을 엄격하게 평가합니다. 평가 결과, LLM은 기존 RAC 문헌에서 자주 논의되는 전자 4가지 차원에서 평균 60%대의 정확도를 보였으나, 복잡하고 새로운 추론 질문을 포함하는 후자 2가지 차원에서는 성능이 크게 저하되는 것을 확인했습니다. 특히, 행동의 간접적인 효과를 포착하는 새로운 ramification 제약 조건을 도입하여 RAC 과제에 대한 심층적인 통찰력을 제공합니다. 최첨단 LLM에 대한 평가 결과, 모든 RAC 차원에서, 특히 ramification 처리에서 어려움을 겪는다는 것을 보여줍니다.