HeroBench: A Benchmark for Long-Horizon Planning and Structured Reasoning in Virtual Worlds

Created by

Haebom

저자

Petr Anokhin, Roman Khalikov, Stefan Rebrikov, Viktor Volkov, Artyom Sorokin, Vincent Bissonnette

💡 개요

본 논문은 복잡한 RPG 가상 세계에서 장기 계획 및 구조적 추론 능력을 평가하기 위한 HeroBench라는 새로운 벤치마크를 제안합니다. HeroBench는 현실적인 제약 조건 하에서 수백에서 수천 개의 액션을 포함하는 단일 종단 계획을 요구하며, LLM의 장기 계획 능력을 평가합니다. 25개의 최신 LLM 평가 결과, 기존 추론 벤치마크에서 보기 드문 상당한 성능 격차를 보였으며, 가장 어려운 과제는 현재 어떤 모델도 안정적으로 해결하지 못하는 것으로 나타났습니다.

🔑 시사점 및 한계

•

LLM의 장기적이고 계층적인 계획 수립 능력을 현실적인 가상 세계 환경에서 평가할 수 있는 새로운 벤치마크를 제공합니다.

•

기존 벤치마크에서 드러나지 않았던 LLM 간의 성능 격차와 장기 계획에서의 어려움을 명확히 보여줍니다.

•

가장 어려운 과제를 안정적으로 해결하는 모델이 없어, LLM의 자율적 장기 계획 능력 향상에 대한 지속적인 연구 필요성을 시사합니다.

PDF 보기

Made with Slashpage