Daily Arxiv

This page organizes papers related to artificial intelligence published around the world.
This page is summarized using Google Gemini and is operated on a non-profit basis.
The copyright of the paper belongs to the author and the relevant institution. When sharing, simply cite the source.

Assessing Consciousness-Related Behaviors in Large Language Models Using the Maze Test

Created by
  • Haebom
Category
Empty

저자

Rui A. Pimenta, Tim Schlippe, Kristina Schaaff

개요

본 논문은 대규모 언어 모델(LLM)의 의식과 유사한 행동을 미로 테스트를 통해 조사한다. 미로 테스트는 1인칭 관점에서 미로를 탐색하도록 모델에 과제를 부여하여 공간 인식, 관점 취하기, 목표 지향적 행동, 시간적 순서 지정 등 의식과 관련된 주요 특징들을 동시에 조사한다. 13가지 필수적인 의식 특성들을 종합하여 12개의 주요 LLM을 제로샷, 원샷, 퓨샷 학습 시나리오에서 평가했다. 결과는 추론 능력이 있는 LLM이 표준 버전보다 일관되게 성능이 우수함을 보여주었으며, Gemini 2.0 Pro는 52.9%의 완전 경로 정확도를, DeepSeek-R1은 80.5%의 부분 경로 정확도를 달성했다. 이러한 지표 간의 차이는 LLM이 해결 과정 전반에 걸쳐 일관된 자기 모델을 유지하는 데 어려움을 겪고 있음을 나타내며, 이는 의식의 기본적인 측면이다. LLM은 추론 메커니즘을 통해 의식 관련 행동에서 발전을 보여주지만, 의식의 특징인 통합적이고 지속적인 자기 인식은 부족하다.

시사점, 한계점

시사점:
추론 능력이 있는 LLM이 미로 테스트에서 더 나은 성능을 보임으로써, 추론 능력과 의식 관련 행동 간의 상관관계를 시사한다.
LLM의 의식과 유사한 행동을 평가하기 위한 새로운 벤치마크인 미로 테스트를 제시한다.
Gemini 2.0 Pro와 DeepSeek-R1 등 일부 LLM이 상당한 수준의 미로 탐색 능력을 보여준다.
한계점:
LLM이 미로 테스트에서 보여주는 성능은 진정한 의식을 의미하지 않을 수 있다. 추론 능력으로 의식과 유사한 행동을 모방할 수 있음을 보여줄 뿐이다.
LLM이 해결 과정 전반에 걸쳐 일관된 자기 모델을 유지하는 데 어려움을 겪는다는 점은 진정한 자기 인식과 의식의 부재를 시사한다.
미로 테스트가 의식의 모든 측면을 포괄적으로 평가하지 못할 수 있다.
👍