Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Are language models rational? The case of coherence norms and belief revision

Created by
  • Haebom
Category
Empty

저자

Thomas Hofweber, Peter Hase, Elias Stengel-Eskin, Mohit Bansal

개요

본 논문은 기계 학습 모델, 특히 언어 모델에 합리성의 규범이 적용되는지를 탐구한다. 특히 논리적 일관성 규범과 믿음의 강도와 관련된 일관성 규범에 초점을 맞춘다. 후자를 이해하기 위해 Minimal Assent Connection (MAC)을 도입하고 언어 모델의 신념을 설명하는 새로운 접근 방식을 제안한다. 이 제안은 모델 내부 다음 토큰 확률을 기반으로 믿음의 강도를 균일하게 할당한다. 연구 결과, 일관성과 관련된 합리성 규범이 일부 언어 모델에는 적용되지만, 다른 모델에는 적용되지 않음을 주장한다. 이는 AI 안전 및 정렬 문제와 밀접하게 관련되어 있으며, 모델 동작의 이해와도 연결된다.

시사점, 한계점

시사점:
언어 모델의 합리성 연구를 통해 AI 안전 및 정렬 관련 문제에 대한 이해를 높일 수 있다.
일관성 규범을 적용하여 언어 모델의 행동을 예측하고 설명하는 데 기여할 수 있다.
믿음의 강도를 측정하는 새로운 방법론(MAC 기반의 신념)을 제시하여 언어 모델 분석의 새로운 지평을 열었다.
한계점:
특정 유형의 언어 모델에만 합리성 규범이 적용될 수 있다는 점은 일반화의 한계를 시사한다.
제안된 MAC 기반 신념 측정 방법론의 유효성에 대한 추가적인 검증이 필요하다.
합리성의 다른 측면 (예: 인과 추론, 의사 결정 등)에 대한 고려가 부족하다.
👍