# TextGames: Learning to Self-Play Text-Based Puzzle Games via Language Model Reasoning

### 저자

Frederikus Hudi, Genta Indra Winata, Ruochen Zhang, Alham Fikri Aji

### 개요

본 논문에서는 대규모 언어 모델(LLM)의 추론 능력을 평가하기 위한 새로운 벤치마크인 TextGames를 소개합니다. TextGames는 패턴 인식, 공간 인식, 산술 및 논리적 추론과 같은 고급 기술을 필요로 하는 까다로운 텍스트 기반 게임으로 구성되어 있습니다.  본 연구는 단일 턴 및 다중 턴 추론에서 LLM의 성능과 자기 반성을 통한 후속 답변 수정 능력을 분석합니다.  결과적으로 LLM은 대부분의 쉬운 및 중간 수준 문제는 잘 해결하지만, 어려운 문제에서는 상당한 어려움을 겪는다는 것을 발견했습니다. 반면 인간은 충분한 시간이 주어지면 모든 문제를 해결할 수 있습니다. 또한 LLM은 자기 반성을 통해 다중 턴 예측에서 성능이 향상되지만, 순서 지정, 계산 및 복잡한 규칙을 일관되게 따르는 데는 여전히 어려움을 겪습니다.  추론에 최적화된 모델은 지시 사항 따르기를 우선시하는 사전 훈련된 LLM보다 성능이 뛰어나며, 매우 복잡한 문제를 해결하는 데 추론 기술의 중요성을 강조합니다.

### 시사점, 한계점

- **시사점:**

    - TextGames는 LLM의 추론 능력을 종합적으로 평가할 수 있는 새로운 벤치마크를 제공합니다.

    - LLM의 추론 능력은 아직 완벽하지 않으며, 특히 복잡한 문제 해결 능력 향상에 대한 연구가 필요함을 시사합니다.

    - 다중 턴 추론에서 자기 반성의 중요성을 보여줍니다.

    - 추론에 특화된 모델이 일반적인 LLM보다 성능이 우수함을 확인했습니다.

- **한계점:**

    - TextGames는 텍스트 기반 게임에 국한되어 있어, LLM의 추론 능력을 완벽하게 포괄하지 못할 수 있습니다.

    - LLM의 어려움을 겪는 특정 영역(순서 지정, 계산, 복잡한 규칙 따르기)에 대한 추가적인 연구가 필요합니다.

[PDF 보기](https://arxiv.org/pdf/2502.18431)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
