Incomplete Utterance Rewriting with Editing Operation Guidance and Utterance Augmentation
Created by
Haebom
Category
Empty
저자
Zhiyu Cao, Peifeng Li, Yaxin Fan, Qiaoming Zhu
개요
기존의 불완전 발화 재작성(IUR) 방법들은 일관된 발화를 생성하지만, 대화 맥락에서 중요한 토큰에 집중하지 못해 불필요하고 중복된 토큰을 포함하는 경우가 많았습니다. 또한, 제한된 크기의 훈련 데이터셋은 IUR 모델의 부족한 훈련으로 이어집니다. 본 논문에서는 이러한 문제를 해결하기 위해, 시퀀스 레이블링 모듈이 생성한 편집 작업 레이블을 사용하여 생성 모델이 중요한 토큰에 집중하도록 유도하는 다중 작업 학습 프레임워크 EO-IUR(Editing Operation-guided Incomplete Utterance Rewriting)을 제안합니다. 또한, 대화를 나타내는 토큰 수준의 이종 그래프를 도입합니다. 두 번째 문제를 해결하기 위해, 편집 작업 기반 불완전 발화 증강 및 LLM 기반 과거 발화 증강이라는 2차원 발화 증강 전략을 제안합니다. 세 개의 데이터셋에 대한 실험 결과는 EO-IUR이 개방형 도메인 및 작업 지향적 대화 모두에서 이전 최첨단(SOTA) 기준보다 성능이 우수함을 보여줍니다. 코드는 https://github.com/Dewset/EO-IUR 에서 이용 가능합니다.
시사점, 한계점
•
시사점:
◦
다중 작업 학습 프레임워크 EO-IUR을 통해 불완전 발화 재작성의 성능 향상을 달성했습니다.
◦
편집 작업 레이블과 토큰 수준의 이종 그래프를 활용하여 중요 토큰에 집중하는 모델을 구축했습니다.