Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

AgentAuditor: Human-Level Safety and Security Evaluation for LLM Agents

Created by
  • Haebom

저자

Hanjun Luo, Shenyu Dai, Chiming Ni, Xinfeng Li, Guibin Zhang, Kun Wang, Tongliang Liu, Hanan Salam

개요

LLM 기반 에이전트의 안전성 및 보안성 평가의 어려움을 해결하기 위해, 기존의 규칙 기반 또는 LLM 기반 평가자의 한계(단계별 행동의 위험 간과, 미묘한 의미 간과, 작은 문제의 누적 효과 간과, 모호한 규칙에 대한 혼란)를 극복하는 새로운 평가 프레임워크인 \sys를 제안한다. \sys는 LLM이 과거 상호작용으로부터 구조화된 의미적 특징(예: 시나리오, 위험, 행동)을 추출하고, 연관된 사고 과정 추론 기록을 생성하여 경험적 메모리를 구축한다. 다단계 상황 인식 검색 증강 생성 과정을 통해 관련 추론 경험을 동적으로 검색하여 새로운 사례 평가를 안내한다. LLM 기반 평가자가 안전 위험과 보안 위협을 모두 감지하는 능력을 평가하기 위한 새로운 벤치마크인 \data (2293개의 주석이 달린 상호작용 기록, 15가지 위험 유형, 29가지 응용 시나리오 포함, 모호한 위험 상황에 대한 '엄격' 및 '관대한' 판단 기준 사용)를 개발했다. 실험 결과, \sys는 모든 벤치마크에서 LLM의 평가 성능을 향상시키고, 에이전트 안전 및 보안에 대한 LLM 평가자의 최첨단 성능을 달성하여 인간 수준의 정확도를 달성함을 보여준다. 본 연구는 공개적으로 접근 가능하다.

시사점, 한계점

시사점:
LLM 기반 에이전트의 안전성 및 보안성 평가에 대한 새로운 접근 방식을 제시한다.
기존 LLM 기반 평가자의 한계를 극복하는 \sys 프레임워크를 통해 평가 성능을 향상시켰다.
안전 및 보안 위험 평가를 위한 새로운 벤치마크 \data를 제공한다.
인간 수준의 정확도를 달성하는 LLM 기반 평가자를 구현했다.
연구 결과를 공개적으로 공유하여 다른 연구자들의 활용을 지원한다.
한계점:
\sys의 성능은 \data 벤치마크에 의존적일 수 있다. 다양한 벤치마크에 대한 추가적인 평가가 필요하다.
"엄격"과 "관대한" 판단 기준의 정의가 주관적일 수 있으며, 이로 인해 평가의 일관성에 영향을 미칠 수 있다.
실제 세계의 복잡한 상황을 완벽하게 반영하지 못할 수 있다. 더욱 다양하고 복잡한 상황을 포함하는 벤치마크 개발이 필요하다.
메모리 증강 방식의 효율성 및 확장성에 대한 추가적인 연구가 필요하다.
👍