When Agents Overtrust Environmental Evidence: An Extensible Agentic Framework for Benchmarking Evidence-Grounding Defects in LLM Agents

작성자

Haebom

카테고리

Empty

저자

Strick Sheng, Ziyue Wang, Liyi Zhou

💡 개요

본 논문은 LLM 에이전트가 파일, 웹 페이지, API 등의 환경 정보를 신뢰하는 정도를 평가하는 새로운 프레임워크인 EnvTrustBench를 제안합니다. 기존 벤치마크가 에이전트의 전반적인 기능이나 특정 공격에 집중하는 반면, 본 연구는 부정확하거나 악의적인 환경 정보에 대한 에이전트의 과신으로 발생하는 "증거 기반 결함(EGD)"이라는 근본적인 신뢰성 문제를 다룹니다. 이를 통해 LLM 에이전트의 환경 정보 처리 과정에서의 취약점을 체계적으로 분석합니다.

🔑 시사점 및 한계

•

LLM 에이전트가 환경 정보에 과도하게 의존할 때 발생하는 증거 기반 결함(EGD)은 실제 운영 환경에서 일관되게 나타나는 핵심적인 신뢰성 문제입니다.

•

환경 정보의 불확실성은 LLM 에이전트의 보안에 중요한 영향을 미칠 수 있으며, 이에 대한 체계적인 평가와 개선이 필요합니다.

•

EnvTrustBench는 다양한 LLM 백본과 스캐폴드에 걸쳐 EGD를 생성하고 평가할 수 있는 extensible한 프레임워크를 제공하지만, 실제 복잡하고 동적인 환경에서의 모든 잠재적 오류 모드를 완벽하게 포착하기는 어려울 수 있습니다.

PDF 보기

Made with Slashpage