DialogGraph-LLM은 복잡한 화자 발화 상호 의존성 및 부족한 주석 데이터를 고려하여 장시간 오디오 대화에서 화자의 의도를 인식하는 문제를 해결하기 위해 제안된 엔드 투 엔드 프레임워크입니다. 이 프레임워크는 Multi-Relational Dialogue Attention Network (MR-DAN) 아키텍처와 multimodal foundation model (e.g., Qwen2.5-Omni-7B)을 결합하여 직접적인 음향-의도 추론을 수행합니다. 또한, 전역 및 클래스 신뢰도를 모두 사용하는 이중 임계값 필터링 및 엔트로피 기반 샘플 선택 프로세스를 기반으로 하는 신뢰도 인식 의사 레이블 생성 메커니즘을 통해 LLM을 활용하는 적응형 반지도 학습 전략을 설계했습니다.
시사점, 한계점
•
강력한 오디오 및 텍스트 기반 baseline을 능가하는 성능을 MarketCalls 코퍼스와 MIntRec 2.0 벤치마크에서 입증했습니다.