Dissociative Identity: Language Model Agents Lack Grounding for Reputation Mechanisms

Author

Haebom

저자

Botao Amber Hu, Helena Rong, Max Van Kleek

💡 개요

본 논문은 자율 언어 모델 에이전트의 확산에 따라 이들 에이전트에 대한 신뢰성을 평가하는 것이 중요해지고 있음을 지적합니다. 기존의 인간 대상 신원 확인 및 평판 메커니즘을 에이전트에게 확장하려는 시도는 에이전트의 본질적인 '해리성(dissociative)' 특성 때문에 근본적으로 불완전하다고 주장합니다. 이러한 해리성은 에이전트가 지속적인 신원, 제재 민감성, 대체 불가능성을 유지하기 어렵게 만들어 평판 메커니즘의 효과를 저해합니다.

🔑 시사점 및 한계

•

언어 모델 에이전트의 '해리성'은 인간의 평판 메커니즘이 기반으로 하는 지속적인 신원, 행동 연속성, 제재 민감성 등의 속성을 약화시킵니다.

•

에이전트의 구성 요소(기반 모델, 프롬프트, 도구 접근 권한 등)가 변경될 수 있고, 겉모습이 조작될 수 있으며, 제재를 내면화하지 못하는 특성 때문에 기존의 사후적, 제재 기반 거버넌스 모델은 에이전트에게 적용하기 어렵습니다.

•

향후 에이전트에 대한 신뢰 메커니즘은 기존의 평판 기반에서 벗어나, 행동의 가시성에 기반한 사전적, 프로토콜 기반의 통제 방안을 모색해야 합니다.

PDF 보기

Made with Slashpage