Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Normality and the Turing Test

Created by
  • Haebom
Category
Empty

저자

Alexandre Kabbach

개요

본 논문은 튜링 테스트를 "정상성"의 개념을 통해 재고찰하는 것을 제안한다. 튜링 테스트는 정상적인 판단자에 의해 평가되는 정상적인 지능을 시험하는 것이라는 핵심 주장을 펼친다. 첫째, 튜링 테스트는 예외적인 인간 지능이 아닌 정상/평균적인 인간 지능을 목표로 하므로, 테스트 통과를 위해서는 기계가 정상/평균적인 인간처럼 "실수"를 하고 불완전한 행동을 보여야 한다. 둘째, 튜링 테스트는 지능에 대한 판단이 단일 "평균" 판단자(비전문가)가 아닌 다수의 판단자 집단에 의해 수행되는 통계적 테스트이다. 튜링이 언급한 "평균적인 인간 심문자"는 개별 판단의 정규화된 집합으로 구성된 수학적 추상으로 이해해야 한다. 결론은 두 가지이다. 첫째, ChatGPT와 같은 대규모 언어 모델은 정상/평균적인 인간 지능이 아닌 예외적인 지능을 정확히 목표로 하므로 튜링 테스트를 통과할 가능성이 낮다. 따라서, 이러한 모델들은 인공 정신 모델링이라는 튜링의 원래 목표에서 벗어나므로, 인공 지능보다는 인공 지능력의 모델을 구성한다. 둘째, 튜링 테스트에서 정상적인 인간 행동의 객관화는 테스트의 게임 구성으로 인해 실패하며, 이는 정상적인 행동 자체보다는 정상적인 행동에 대한 규범적 이상을 객관화하게 된다.

시사점, 한계점

시사점:
튜링 테스트를 정상성 개념을 통해 재해석하여, AI 개발의 목표에 대한 새로운 관점을 제시.
대규모 언어 모델의 튜링 테스트 통과 가능성에 대한 비판적 시각 제시.
튜링 테스트의 본질적인 한계점을 지적하며, AI 연구의 방향성에 대한 성찰을 유도.
한계점:
"정상성"의 구체적인 정의와 측정 방법에 대한 명확한 제시 부족.
대규모 언어 모델이 "인공 지능력"의 모델이라는 주장에 대한 실증적 근거 미흡.
튜링 테스트의 대체 가능한 평가 방법론에 대한 구체적인 제안 부재.
👍