본 논문은 사람들이 속으로 또는 소리 내어 하는 자기 대화(self-talk)를 실제 환경에서 이어폰 마이크를 통해 자동으로 감지하는 모바일 시스템인 MutterMeter를 제시합니다. MutterMeter는 자기 대화의 다양한 음향 형태, 불완전한 문법, 불규칙한 발생 패턴으로 인해 발생하는 기술적 어려움을 해결하기 위해 음향, 언어, 상황 정보를 순차적으로 통합하는 계층적 분류 아키텍처를 사용합니다. 25명의 참가자로부터 수집된 31.1시간의 오디오 데이터셋을 사용하여 구축 및 평가되었으며, MutterMeter는 0.84의 매크로 평균 F1 점수를 기록하여 기존 접근 방식보다 우수한 성능을 보였습니다.