본 논문은 마케팅 전화 통화에서 고객 태도 분석에 필수적인 오디오 분류를 연구하며, 특히 고객의 구매 성향을 효율적으로 분류하는 것을 목표로 한다. 이를 위해 새로운 Multi-Segment Multi-Task Fusion Network (MSMT-FN)을 제안한다. 자체 MarketCalls 데이터셋과 CMU-MOSI, CMU-MOSEI, MELD 벤치마크를 통해 MSMT-FN의 성능을 평가한 결과, 기존 최첨단 방법론과 동등하거나 더 나은 성능을 보였다. 추가 연구를 위해 새로운 MarketCalls 데이터셋과 코드베이스를 공개할 예정이다.