Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Humans Perceive Wrong Narratives from AI Reasoning Texts

Created by
  • Haebom

저자

Mosh Levy, Zohar Elyoseph, Yoav Goldberg

개요

새로운 AI 모델들은 답을 생성하기 전에 단계별 추론 텍스트를 생성합니다. 이 텍스트는 모델의 계산 과정을 보여주는 것처럼 보이며, 투명성과 해석성을 위해 점점 더 많이 사용되고 있습니다. 그러나 인간이 이 텍스트를 이해하는 방식이 모델의 실제 계산 과정과 일치하는지는 불분명합니다. 본 논문에서는 추론 텍스트의 단계 중 어떤 것이 나중 단계에 인과적으로 영향을 미치는지 인간이 식별할 수 있는 능력이라는, 대응을 위한 필요 조건을 조사합니다. 반사실적 측정을 기반으로 질문을 구성하여 인간의 능력을 평가한 결과, 상당한 차이가 발견되었습니다. 참가자의 정확도는 29%에 불과하여 우연보다 약간 높았으며(25%), 의견 일치가 높은 질문에 대한 다수결을 평가하더라도 42%에 그쳤습니다. 이러한 결과는 인간이 추론 텍스트를 해석하는 방식과 모델이 추론 텍스트를 사용하는 방식 사이에 근본적인 차이가 있음을 보여주며, 단순한 해석성 도구로서의 유용성에 의문을 제기합니다. 추론 텍스트는 당연한 것으로 받아들여서는 안 되며 조사해야 할 인공물로 간주해야 하며, 이러한 모델이 언어를 사용하는 비인간적인 방식을 이해하는 것이 중요한 연구 방향이라고 주장합니다.

시사점, 한계점

시사점: 인간의 추론 텍스트 해석과 AI 모델의 실제 계산 과정 사이에 상당한 차이가 존재함을 밝혔습니다. AI 모델의 추론 과정을 이해하기 위해서는 단순히 추론 텍스트를 해석하는 것을 넘어, 모델이 언어를 사용하는 방식에 대한 심층적인 이해가 필요함을 시사합니다. 추론 텍스트는 모델의 내부 과정을 반영하는 완벽한 지표가 아니며, 추가적인 해석 방법론의 개발이 필요합니다.
한계점: 연구는 특정 유형의 AI 모델과 추론 텍스트에 국한되어 있으며, 다른 유형의 모델이나 텍스트에 대한 일반화 가능성은 제한적입니다. 참가자의 샘플 크기 및 질문 구성 방식에 따라 결과가 영향을 받을 수 있습니다. 인간의 추론 능력 자체의 한계를 완전히 배제하기 어렵습니다.
👍