LLM 기반 챗봇 설계 시, 사용자는 자신의 설계가 실제 챗봇 동작에 미치는 영향을 정확히 예측하기 어렵다. 이는 예기치 않은 부작용(과도한 아첨, 유해성 등)을 유발하여 유용성을 저하시키고 안전 문제를 야기할 수 있다. 이 문제를 해결하기 위해, 본 연구는 챗봇 설계 과정에서 언어 모델 내부를 노출하는 인터페이스를 제안한다. 이는 상반된 동작을 유발하는 시스템 프롬프트 간의 신경 활성 차이를 계산하여 행동 특성 벡터(공감, 유해성, 아첨 등)를 추출한다. 제안된 인터페이스는 시스템 프롬프트의 최종 토큰 활성화를 이러한 특성 벡터에 투영하고, 상호 비교 가능성을 위해 정규화하며, 대화형 선버스트 다이어그램을 통해 결과를 시각화하여 챗봇의 동작을 예측한다. 사용자 연구를 통해 제안된 인터페이스의 효과를 평가한 결과, 사용자들이 AI 행동을 체계적으로 오판하며, 투명성 도구의 필요성을 확인했다. 또한 인터페이스가 사용자 신뢰도를 크게 높였으며 긍정적인 평가를 받았다.