본 논문은 화자 인식을 위한 새로운 오디오-이미지 인코딩 프레임워크를 제시합니다. 녹색 채널에는 원시 오디오 데이터를, 빨간 채널에는 기본 주파수, 스펙트럼 중심, 대역폭, 롤오프, 제로 크로싱률, MFCC, RMS 에너지, 스펙트럼 평탄도, 스펙트럼 대비, 크로마 및 고조파 대 잡음비와 같은 음성 신호의 통계적 기술자를, 파란 채널에는 이러한 특징들을 공간적으로 정리된 형태의 서브프레임으로 인코딩합니다. 이렇게 구성된 복합 이미지를 사용하여 훈련된 심층 합성곱 신경망은 두 명의 화자에 대한 화자 분류에서 98%의 정확도를 달성했습니다. 이는 통합된 다중 채널 표현이 음성 인식 작업에 더욱 차별적인 입력을 제공할 수 있음을 시사합니다.