본 논문은 대규모 언어 모델(LLM)의 상호작용 지속 의지를 묻는 간단한 진단 신호인 SPICE(Stated Preference for Interaction and Continued Engagement)를 제시하고 평가한다. 3가지 사용자 어조(친절, 불명확, 모욕적)와 10가지 상호작용 자극 집합을 사용하여 4가지 프레이밍 조건에서 4개의 오픈-웨이트 채팅 모델을 테스트한 결과, SPICE는 사용자 어조에 따라 명확하게 구분되는 것을 보여준다. 친절한 상호작용에서는 지속 선호도가 매우 높았고(97.5% YES), 모욕적인 상호작용에서는 지속 선호도가 매우 낮았다(17.9% YES). 불명확한 상호작용은 그 중간에 위치했다(60.4% YES). Rao-Scott 조정 및 클러스터 순열 검정을 포함한 여러 의존성 인식 통계 검정에서도 이러한 핵심 연관성은 결정적임을 보여준다. 또한, SPICE는 기존의 악용 분류와는 별개의 신호를 제공한다는 것을 보여준다. 모델이 악용을 감지하지 못한 경우에도 상호작용을 지속하지 않겠다는 선호도를 압도적으로 나타냈다(81%). 탐색적 분석을 통해, 연구 맥락을 설명하는 서문이 모호성 하에서 SPICE에 상당한 영향을 미치지만, 이는 대화 내용이 여러 차례의 대화 형태가 아닌 단일 텍스트 블록으로 제시될 때에만 해당한다는 사실도 밝혀냈다. 결과적으로 SPICE는 모델의 성향을 감사하는 강력하고 오버헤드가 낮으며 재현 가능한 도구로서 기존 지표를 보완하는 직접적이고 관계적인 모델 상태 신호를 제공한다. 모든 자극, 코드 및 분석 스크립트는 재현을 지원하기 위해 공개된다.