Sign In

Dissociative Identity: Language Model Agents Lack Grounding for Reputation Mechanisms

Author
  • Haebom
Category
Empty

저자

Botao Amber Hu, Helena Rong, Max Van Kleek

💡 개요

본 논문은 자율 언어 모델 에이전트의 확산에 따라 이들 에이전트에 대한 신뢰성을 평가하는 것이 중요해지고 있음을 지적합니다. 기존의 인간 대상 신원 확인 및 평판 메커니즘을 에이전트에게 확장하려는 시도는 에이전트의 본질적인 '해리성(dissociative)' 특성 때문에 근본적으로 불완전하다고 주장합니다. 이러한 해리성은 에이전트가 지속적인 신원, 제재 민감성, 대체 불가능성을 유지하기 어렵게 만들어 평판 메커니즘의 효과를 저해합니다.

🔑 시사점 및 한계

언어 모델 에이전트의 '해리성'은 인간의 평판 메커니즘이 기반으로 하는 지속적인 신원, 행동 연속성, 제재 민감성 등의 속성을 약화시킵니다.
에이전트의 구성 요소(기반 모델, 프롬프트, 도구 접근 권한 등)가 변경될 수 있고, 겉모습이 조작될 수 있으며, 제재를 내면화하지 못하는 특성 때문에 기존의 사후적, 제재 기반 거버넌스 모델은 에이전트에게 적용하기 어렵습니다.
향후 에이전트에 대한 신뢰 메커니즘은 기존의 평판 기반에서 벗어나, 행동의 가시성에 기반한 사전적, 프로토콜 기반의 통제 방안을 모색해야 합니다.
👍