Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DialogGuard: Multi-Agent Psychosocial Safety Evaluation of Sensitive LLM Responses

Created by
  • Haebom
Category
Empty

저자

Han Luo, Guy Laban

개요

본 논문은 대규모 언어 모델(LLM)이 웹 기반 정신 건강, 위기 관리 등 정서적으로 민감한 서비스에 널리 사용되면서, 이러한 환경에서의 심리사회적 안전성이 제대로 이해되지 않고 평가되지 않는다는 문제점을 제기합니다. 이를 해결하기 위해, DialogGuard라는 다중 에이전트 프레임워크를 제안하여 LLM이 생성한 응답의 심리사회적 위험을 평가합니다. DialogGuard는 개인 정보 침해, 차별적 행동, 정신 조작, 심리적 해악, 모욕적인 행동 등 5가지 심각한 위험 요소를 평가하며, 단일 에이전트 채점, 이중 에이전트 수정, 다중 에이전트 토론, 확률적 과반수 투표를 포함한 4가지 LLM 기반 평가 파이프라인을 사용합니다. PKU-SafeRLHF와 인간 안전 주석을 사용하여 다중 에이전트 메커니즘이 비 LLM 기반 및 단일 에이전트 평가보다 심리사회적 위험을 더 정확하게 감지한다는 것을 보여주며, 이중 에이전트 수정과 과반수 투표가 정확성, 인간 평가와의 일치성, 견고성 간의 최적의 균형을 제공합니다. DialogGuard는 오픈 소스 소프트웨어로 제공되며, 웹 인터페이스를 통해 차원별 위험 점수와 설명 가능한 자연어 근거를 제공합니다. 12명의 실무자와의 형성 연구를 통해 DialogGuard가 취약한 사용자를 위한 웹 기반 애플리케이션의 프롬프트 설계, 감사 및 감독을 지원함을 보여줍니다.

시사점, 한계점

시사점:
다중 에이전트 기반의 DialogGuard 프레임워크는 LLM 생성 응답의 심리사회적 위험을 효과적으로 평가할 수 있습니다.
이중 에이전트 수정 및 과반수 투표 방식은 정확성, 인간 평가 일치성, 견고성 측면에서 우수한 성능을 보입니다.
DialogGuard는 오픈 소스로 제공되어 프롬프트 설계, 감사, 감독 등 다양한 활용 분야에 적용될 수 있습니다.
한계점:
본 연구의 모든 모델과 평가는 영어로 이루어졌을 가능성이 높고, 언어적 다양성을 고려하지 못했을 수 있습니다.
토론 방식은 높은 재현율을 보이지만, 경계선상의 사례를 과도하게 판별하는 경향이 있습니다.
연구는 12명의 실무자를 대상으로 한 형성 연구로 진행되어, 일반화 가능성에 제한이 있을 수 있습니다.
👍