대규모 언어 모델(VLM) 기반 물체화 에이전트의 결함 있는 계획은 실제 가정 환경 작업 배포를 저해하는 심각한 안전 위험을 초래합니다. 기존의 정적이고 비상호 작용적인 평가 패러다임은 에이전트의 행동에서 발생하는 동적 위험을 시뮬레이션할 수 없고, 안전하지 않은 중간 단계를 무시하는 신뢰할 수 없는 사후 평가에 의존하기 때문에 이러한 상호 작용 환경 내의 위험을 충분히 평가할 수 없습니다. 이러한 중요한 차이를 해소하기 위해 본 논문에서는 에이전트의 상호 작용 안전성, 즉 새로운 위험을 인지하고 올바른 절차적 순서로 완화 단계를 실행하는 능력을 평가하는 방법을 제안합니다. 따라서 고충실도 시뮬레이터에서 구현된 388가지 고유한 안전 위험을 포함하는 161가지의 어려운 시나리오를 특징으로 하는 최초의 다중 모드 상호 작용 안전성 벤치마크인 IS-Bench를 제시합니다. 중요한 것은 위험 완화 조치가 특정 위험이 있는 단계 전이나 후에 수행되는지 여부를 확인하는 새로운 프로세스 중심 평가를 용이하게 한다는 점입니다. GPT-4o 및 Gemini-2.5 시리즈를 포함한 주요 VLM에 대한 광범위한 실험을 통해 현재 에이전트는 상호 작용 안전성 인식이 부족하며, 안전 인식 사고 연쇄(Chain-of-Thought)가 성능을 향상시킬 수 있지만, 작업 완료를 저해하는 경우가 많다는 것을 보여줍니다. 이러한 중요한 한계를 강조함으로써 IS-Bench는 더 안전하고 신뢰할 수 있는 물체화 AI 시스템을 개발하기 위한 기반을 제공합니다. 코드와 데이터는 이 링크에서 공개됩니다.