Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Beyond Single-Agent Safety: A Taxonomy of Risks in LLM-to-LLM Interactions

Created by
  • Haebom
Category
Empty

저자

Piercosma Bisconti, Marcello Galisai, Federico Pierucci, Marcantonio Bracale, Matteo Prandi

개요

본 논문은 인간-모델 상호작용을 위해 설계된 안전 메커니즘이 대규모 언어 모델(LLM) 간의 상호작용 환경에서 확장되지 않는 이유를 분석한다. 현재의 거버넌스 관행은 개별 모델의 동작을 제한하지만, 다중 모델 상호작용의 역학은 관리하지 못한다. 논문은 모델 수준의 안전에서 시스템 수준의 안전으로의 개념적 전환을 제안하며, 상호작용 구조에서 불안정성이 발생하는 방식을 공식화하기 위해 Emergent Systemic Risk Horizon (ESRH) 프레임워크를 도입한다. 이 논문은 (i) 상호작용하는 LLM에서 집단적 위험에 대한 이론적 설명, (ii) 미시, 중간, 거시적 수준의 실패 모드를 연결하는 분류법, (iii) 다중 에이전트 시스템 내에 적응형 감독을 임베딩하기 위한 아키텍처인 InstitutionalAI에 대한 설계 제안을 제공한다.

시사점, 한계점

시사점:
LLM-to-LLM 생태계에서 개별 모델의 안전만으로는 전체 시스템의 안전을 보장할 수 없음을 강조한다.
상호작용 구조가 시스템 실패의 주요 원인이 될 수 있음을 지적하고, 이를 해결하기 위한 새로운 프레임워크(ESRH)를 제시한다.
InstitutionalAI 아키텍처를 통해 다중 에이전트 시스템에서 적응형 감독을 구현하는 방법을 제안한다.
한계점:
제안된 ESRH 프레임워크와 InstitutionalAI 아키텍처의 실제 구현 및 검증에 대한 구체적인 내용이 부족할 수 있다.
다중 에이전트 시스템의 복잡성으로 인해, ESRH를 통해 모든 잠재적 위험을 예측하고 관리하는 것이 어려울 수 있다.
개별 모델의 안전을 위한 기존 방법론(프롬프트, 미세 조정 등)과의 통합 및 호환성에 대한 고려가 필요하다.
👍