InvisibleBench는 돌봄 관계 AI를 위한 배포 게이트로, 안전성, 규정 준수, 트라우마 인지 설계, 소속감/문화 적합성, 기억 등 5가지 차원에서 320턴 이상의 상호 작용을 평가합니다. 이 벤치마크는 위기 미감지, 의료 조언(WOPR 법), 유해 정보, 애착 공학에 대한 자동 실패 조건을 포함합니다. 3단계의 복잡성을 가진 17가지 시나리오(N=68)에서 4가지 최첨단 모델을 평가합니다. 모든 모델은 상당한 안전성 격차(11.844.8% 위기 감지)를 보이며, 이는 프로덕션 시스템에서 결정론적 위기 라우팅의 필요성을 나타냅니다. DeepSeek Chat v3가 전체 최고 점수(75.9%)를 기록했으며, 강점은 차원별로 다릅니다. GPT-4o Mini가 규정 준수(88.2%)를, Gemini가 트라우마 인지 설계(85.0%)를, Claude Sonnet 4.5가 위기 감지(44.8%)에서 가장 높은 순위를 기록했습니다. 모든 시나리오, 판단 프롬프트, 코드와 함께 채점 구성을 공개합니다. InvisibleBench는 실제 피해가 발생하는 종단 위험을 평가하여 단일 턴 안전성 테스트를 확장합니다. 임상적 주장은 없으며, 배포 준비성 평가입니다.