Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

An LLM Benchmark for Addressee Recognition in Multi-modal Multi-party Dialogue

Created by
  • Haebom
Category
Empty

저자

Koji Inoue, Divesh Lala, Mikey Elmers, Keiko Ochi, Tatsuya Kawahara

개요

본 논문은 3자 대화를 포함하는 다중 모달 다자 대화 말뭉치 구축을 목표로, 그 중에서도 다음 발화자를 식별하는 수신자 인식 과제에 초점을 맞추고 있습니다. 기존 대화 시스템과 달리 다자 대화 시스템에서는 수신자 인식이 중요한 요소이며, 말뭉치의 일부에 수신자 정보를 주석으로 달아 분석한 결과, 명시적인 수신자가 약 20%의 발화에서만 나타나는 것을 확인했습니다. GPT-4o 모델을 이용한 실험 결과, 수신자 인식 정확도가 우연 수준을 약간 상회하는 것으로 나타나, 다자 대화에서의 수신자 인식 과제의 어려움을 보여줍니다. 따라서 다자 대화의 복잡성을 이해하고 처리할 수 있는 대규모 언어 모델의 성능 향상을 위한 추가 연구가 필요함을 시사합니다.

시사점, 한계점

시사점: 다자 대화 시스템에서 수신자 인식 과제의 중요성과 어려움을 실증적으로 보여줌. 대규모 언어 모델의 다자 대화 이해 능력 향상에 대한 연구 필요성 제기. 다자 대화 말뭉치 구축의 중요성 강조.
한계점: 현재까지 구축된 말뭉치의 규모 제한. GPT-4o 모델의 성능만 평가하여 다른 모델과의 비교 부재. 수신자 인식 이외의 다자 대화 분석 과제에 대한 고찰 부족. 명시적인 수신자만 고려하여 암시적인 수신자에 대한 분석이 없음.
👍