Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Interpreting Multi-Attribute Confounding through Numerical Attributes in Large Language Models

Created by
  • Haebom
Category
Empty

저자

Hirohane Takagi, Gouki Minegishi, Shota Kizawa, Issey Sukeda, Hitomi Yanaka

개요

본 논문은 대규모 언어 모델(LLM)의 수치적 추론 오류의 근본적인 표현 메커니즘을 탐구합니다. 특히, LLM이 단일 개체의 여러 수치적 속성을 어떻게 통합하고, 관련 없는 수치적 맥락이 이러한 표현과 출력에 어떤 영향을 미치는지 조사합니다. 이를 위해, 선형 프로빙과 부분 상관 분석, 프롬프트 기반 취약성 테스트를 결합하여 다양한 크기의 모델에 적용했습니다. 결과적으로, LLM이 실제 세계의 수치적 상관 관계를 인코딩하지만 이를 체계적으로 증폭시키는 경향이 있으며, 관련 없는 맥락이 크기에 따라 달라지는 영향을 미치는 magnitude 표현의 일관된 변화를 유발한다는 것을 발견했습니다.

시사점, 한계점

LLM은 실제 세계의 수치적 상관 관계를 인코딩하지만, 이를 과도하게 증폭하는 경향이 있습니다.
관련 없는 수치적 맥락은 magnitude 표현에 일관된 변화를 유발합니다.
이러한 취약성은 LLM의 의사 결정에 영향을 미칠 수 있습니다.
모델 크기에 따라 맥락의 영향이 달라집니다.
연구는 multi-attribute entanglement 하에서 보다 공정하고 표현력을 인지하는 제어를 위한 기반을 마련합니다.
👍