Text2World: Benchmarking Large Language Models for Symbolic World Model Generation

작성자

Haebom

카테고리

비어 있음

저자

Mengkang Hu, Tianxing Chen, Yude Zou, Yuheng Lei, Qiguang Chen, Ming Li, Yao Mu, Hongyuan Zhang, Wenqi Shao, Ping Luo

개요

본 논문은 텍스트 설명으로부터 심볼릭 월드 모델을 생성하는 데 대규모 언어 모델(LLM)을 활용하는 연구에 대한 증가하는 관심에 대해 다룹니다. 기존 연구의 무작위성 평가, 간접 지표 의존성, 제한된 도메인 범위 등의 한계를 해결하기 위해, PDDL(Planning Domain Definition Language) 기반의 새로운 벤치마크인 Text2World를 제시합니다. Text2World는 수백 가지의 다양한 도메인과 다기준 실행 기반 지표를 특징으로 하여 더욱 견고한 평가를 제공합니다. 본 논문에서는 Text2World를 사용하여 현재 LLM들을 벤치마킹하고, 대규모 강화 학습으로 훈련된 추론 모델이 다른 모델들보다 성능이 우수함을 발견했습니다. 하지만 최고 성능 모델조차도 월드 모델링 능력에는 한계를 보입니다. 이러한 통찰력을 바탕으로, 테스트 시 확장, 에이전트 훈련 등 LLM의 월드 모델링 능력을 향상시키는 몇 가지 유망한 전략을 조사합니다. Text2World는 LLM을 월드 모델로 활용하는 미래 연구의 기반을 마련하는 중요한 자원으로 활용될 수 있을 것으로 기대합니다. 프로젝트 페이지는 https://text-to-world.github.io/ 에서 확인 가능합니다.

Text2World: Benchmarking Large Language Models for Symbolic World Model Generation

text-to-world.github.io