Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

From Intent Discovery to Recognition with Topic Modeling and Synthetic Data

Created by
  • Haebom

저자

Aaron Rodrigues, Mahmood Hegazy, Azzam Naeem

개요

본 논문은 단문과 콜드 스타트 문제로 특징지어지는 영역에서 고객 의도를 이해하고 인식하는 AI 시스템을 위한 에이전트형 LLM 프레임워크를 제안합니다. 기존 방법들의 한계를 극복하기 위해 계층적 토픽 모델링과 의도 발견을 통해 36개의 일반적인 사용자 의도를 278개의 세분화된 의도로 확장하고, 합성 사용자 쿼리 데이터를 생성하여 실제 발화를 보강하고, 특히 자원이 부족한 환경에서 사람의 주석에 대한 의존성을 줄입니다. LLM 기반의 토픽 모델링과 합성 발화의 전략적 활용을 통해 데이터셋의 변동성과 적용 범위를 향상시켜 온라인에서 새로운 고객 의도를 발견하고 인식하는 포괄적이고 강력한 프레임워크를 제시합니다. 특히, few-shot 프롬프팅을 통해 합성 쿼리의 질과 유용성을 높이고, LLM이 생성한 의도 설명과 키워드가 사람이 직접 만든 것과 효과적으로 대체될 수 있음을 보여줍니다.

시사점, 한계점

시사점:
LLM을 활용한 계층적 토픽 모델링을 통해 고객 의도의 세분화 및 다양성을 크게 향상시킬 수 있음을 보여줌.
합성 쿼리 데이터 생성을 통해 콜드 스타트 문제 해결 및 데이터셋의 변동성과 적용 범위 향상 가능성 제시.
LLM이 생성한 의도 설명 및 키워드가 사람이 만든 것과 동등한 성능을 보임으로써, 인력 및 시간 절약 가능성을 시사.
에이전트 기반 LLM 프레임워크를 통해 온라인에서 새로운 고객 의도를 효과적으로 발견하고 인식하는 방법 제시.
한계점:
제안된 프레임워크의 실제 서비스 환경 적용에 대한 검증이 부족.
LLM의 성능에 대한 의존도가 높아 LLM의 한계가 프레임워크의 성능에 영향을 미칠 가능성 존재.
합성 쿼리 데이터의 품질에 대한 객관적인 평가 기준 및 지표 제시 부족.
다양한 도메인 및 언어에 대한 일반화 가능성에 대한 추가적인 연구 필요.
👍