Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DialogGraph-LLM: Graph-Informed LLMs for End-to-End Audio Dialogue Intent Recognition

Created by
  • Haebom
Category
Empty

저자

HongYu Liu, Junxin Li, Changxi Guo, Hao Chen, Yaqian Huang, Yifu Guo, Huan Yang, Lihua Cai

개요

DialogGraph-LLM은 복잡한 화자 발화 상호 의존성 및 부족한 주석 데이터를 고려하여 장시간 오디오 대화에서 화자의 의도를 인식하는 문제를 해결하기 위해 제안된 엔드 투 엔드 프레임워크입니다. 이 프레임워크는 Multi-Relational Dialogue Attention Network (MR-DAN) 아키텍처와 multimodal foundation model (e.g., Qwen2.5-Omni-7B)을 결합하여 직접적인 음향-의도 추론을 수행합니다. 또한, 전역 및 클래스 신뢰도를 모두 사용하는 이중 임계값 필터링 및 엔트로피 기반 샘플 선택 프로세스를 기반으로 하는 신뢰도 인식 의사 레이블 생성 메커니즘을 통해 LLM을 활용하는 적응형 반지도 학습 전략을 설계했습니다.

시사점, 한계점

강력한 오디오 및 텍스트 기반 baseline을 능가하는 성능을 MarketCalls 코퍼스와 MIntRec 2.0 벤치마크에서 입증했습니다.
제한된 감독 환경의 오디오가 풍부한 도메인에서 실용적인 가치를 입증했습니다.
👍