AAD-LLM: Neural Attention-Driven Auditory Scene Understanding
Created by
Haebom
Category
Empty
저자
Xilin Jiang, Sukru Samet Dindar, Vishal Choudhari, Stephan Bickel, Ashesh Mehta, Guy M McKhann, Daniel Friedman, Adeen Flinker, Nima Mesgarani
개요
본 논문은 청각적 대규모 언어 모델(LLM)이 모든 음향 입력을 청취자의 인지와 무관하게 동일하게 처리하는 한계를 지적하며, 인간의 선택적 청각 지각을 모방하는 새로운 모델을 제시합니다. 이를 위해, 뇌파 기록(iEEG)을 이용하여 청취자의 주의를 추론하고, 이를 기반으로 모델의 응답을 개선하는 '의도-고려 청각 장면 이해(II-ASU)'와 '청각 주의 주도 LLM(AAD-LLM)' 시스템을 개발했습니다. AAD-LLM은 먼저 신경 활동으로부터 주의 대상 화자를 예측하고, 이를 바탕으로 응답 생성을 조건화합니다. 다중 화자 시나리오에서 주관적 및 객관적 평가를 통해 청취자의 의도와의 정렬이 향상됨을 보였습니다. 이는 청취자의 인지가 기계적 청취를 안내하는 새로운 패러다임을 제시하며, 청취자 중심의 청각 시스템 개발을 위한 초석을 마련합니다.
시사점, 한계점
•
시사점:
◦
뇌파 신호를 이용하여 청취자의 주의를 추론하고, 이를 모델에 통합하는 새로운 접근 방식 제시.
◦
기존 청각 LLM의 한계를 극복하고, 청취자의 의도와 더욱 부합하는 응답 생성 가능성 제시.