Towards Ethical Multi-Agent Systems of Large Language Models: A Mechanistic Interpretability Perspective

Created by

Haebom

저자

Jae Hee Lee, Anne Lauscher, Stefano V. Albrecht

개요

본 논문은 대규모 언어 모델(LLM) 기반 다중 에이전트 시스템(MALM)의 윤리적 문제를 다루며, 기계적 해석 가능성 관점에서 MALM의 윤리적 행동을 보장하기 위한 연구 과제를 제시한다. 구체적으로, 개별 에이전트, 상호작용, 시스템 수준에서 윤리적 행동을 평가하는 프레임워크 개발, 기계적 해석 가능성을 통해 새로운 행동을 유발하는 내부 메커니즘 규명, 그리고 성능 저하 없이 윤리적 행동을 유도하는 매개변수 효율적인 정렬 기술 구현을 주요 연구 과제로 설정한다.