Beyond the Black Box: Interpretability of Agentic AI Tool Use

Created by

Haebom

저자

Hariom Tatsat, Ariye Shater

💡 개요

AI 에이전트의 기업 워크플로우 배포가 지연되는 이유는 도구 사용 실패의 진단 및 제어가 어렵기 때문입니다. 본 연구는 Sparse Autoencoders(SAEs)와 선형 프로브를 기반으로 하는 기계적 해석 도구를 제안하여, 에이전트가 행동하기 전에 내부 상태를 분석하고 도구 호출 필요성과 도구 행동의 결과적 중요성을 추론합니다. 이를 통해 에이전트 실패의 근본 원인을 파악하고 실용적인 내부 가시성을 제공합니다.

🔑 시사점 및 한계

•

AI 에이전트의 도구 사용 실패 원인을 내부적으로 분석하고 예측할 수 있는 새로운 기계적 해석 프레임워크를 제시합니다.

•

긴 시나리오에서 발생하는 조기 도구 사용 오류로 인한 비용 증가, 토큰 소모, 안전 및 보안 위험 등을 줄이는 데 기여할 수 있습니다.

•

본 연구는 외부 평가를 대체하는 것이 아니라, 모델의 내부 신호에 대한 가시성을 추가하는 것을 목표로 하며, 향후 더 복잡한 에이전트 시스템에 대한 해석 가능성 연구가 필요합니다.

PDF 보기

Made with Slashpage