본 논문은 사용자 맞춤형 LLM 기반 챗봇 설계 시, 챗봇의 동작 방식을 예측하기 어렵다는 문제점을 해결하기 위해 신경 투명성 인터페이스를 제안합니다. 이 인터페이스는 반대되는 행동을 유발하는 시스템 프롬프트 간의 신경 활성화 차이를 계산하여 행동 특성 벡터를 추출하고, 시스템 프롬프트의 최종 토큰 활성화를 해당 벡터에 투영하여 챗봇 동작을 예측합니다. 사용자는 이 인터페이스를 통해 챗봇의 행동을 시각적으로 확인할 수 있으며, 사용자 연구를 통해 투명성 인터페이스가 사용자 신뢰도를 높이는 데 기여함을 밝혔습니다.