Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Haunted House: A text-based game for comparing the flexibility of mental models in humans and LLMs

Created by
  • Haebom
Category
Empty

저자

Brett Puppart, Paul-Henry Paltmann, Jaan Aru

개요

본 연구는 모델 기반 추론 능력을 비교하기 위해 "Haunted House"라는 새로운 텍스트 기반 게임을 소개합니다. 9개의 방(3x3 그리드)으로 구성된 집에서 유령을 피해 탈출하는 게임으로, 이동할 때마다 받는 언어적 단서를 통해 진행됩니다. 연구 1에서는 98명의 참가자를 대상으로 실험한 결과, 인간의 성공률은 31.6%였으며, 7개의 최첨단 LLMs보다 성능이 훨씬 우수했습니다. 7개의 LLMs, 140번의 시도 중 Claude 3 Opus만 성공했습니다. GPT-3-mini-high performance는 초기 결과에서 더 높은 성능을 보일 가능성을 보였으나, 인간 수준에는 미치지 못했습니다. 연구 2에서는 29명의 참가자의 이동 경로를 추가 분석하여 LLMs는 무작위적이고 비논리적인 움직임을 자주 보이는 반면, 인간은 그러한 오류를 덜 범한다는 것을 발견했습니다. 본 연구 결과는 현재 LLMs가 능동적인 모델 기반 추론을 요구하는 작업에서 어려움을 겪고 있음을 시사하며, 향후 벤치마크 개발에 대한 영감을 제공합니다.

시사점, 한계점

시사점:
현재 LLMs의 모델 기반 추론 능력의 한계를 명확히 보여주는 새로운 벤치마크 "Haunted House" 게임 제시.
인간과 LLMs의 모델 기반 추론 능력의 차이를 정량적으로 비교 분석.
LLMs의 추론 과정에서 나타나는 무작위적이고 비논리적인 행동 패턴 발견.
향후 LLMs의 모델 기반 추론 능력 향상을 위한 연구 방향 제시.
한계점:
연구 1의 LLM 성능 평가에 사용된 LLMs의 종류 및 버전 제한.
GPT-3-mini-high performance에 대한 추가적인 검증 필요.
"Haunted House" 게임의 일반화 가능성에 대한 추가 연구 필요.
인간 참가자의 전략 및 추론 과정에 대한 심층 분석 부족.
👍