Sign In

Open-Source Large Language Models as Multilingual Crowdworkers: Synthesizing Open-Domain Dialogues in Several Languages With No Examples in Targets and No Machine Translation

Created by
  • Haebom
Category
Empty

저자

Ahmed Njifenjou, Virgile Sucal, Bassam Jabaian, Fabrice Lefevre

개요

본 논문은 영어 중심의 오픈 도메인 대화 에이전트 연구의 한계를 극복하기 위해, 다국어 오픈 도메인 대화 데이터 생성을 위한 새로운 파이프라인을 제안합니다. 대규모 언어 모델(LLM)의 instruction-tuning 기능을 활용하여, 하나의 소스 언어를 기반으로 여러 타겟 언어의 대화 데이터를 생성합니다. 명시적인 기계 번역을 배제하여 언어 고유의 특징을 유지하고, PersonaChat 데이터셋에 본 방법론을 적용합니다. 또한, 대화의 유형을 나타내는 발화 이벤트(speech events)와 대화의 전제 조건을 나타내는 공통 지식(common ground) 개념을 추가하여 생성된 대화의 자연스러움과 현실성을 높였습니다.

시사점, 한계점

시사점:
다국어 오픈 도메인 대화 데이터 구축을 위한 효율적인 방법 제시
기존의 다국어 데이터 구축에 필요한 높은 비용과 시간을 절감
LLM의 instruction-tuning 기능을 활용한 새로운 데이터 증강 기법 제시
명시적인 기계 번역 없이 언어 특징을 보존하는 접근 방식 제시
발화 이벤트와 공통 지식 개념 도입을 통한 대화의 현실성 증가
한계점:
LLM의 성능에 의존적이며, LLM의 한계가 결과물의 품질에 영향을 미칠 수 있음
생성된 데이터의 품질에 대한 객관적인 평가 기준 및 검증 필요
소스 언어에 대한 의존성이 존재하며, 소스 언어의 품질이 결과에 영향을 미침
발화 이벤트와 공통 지식의 정의 및 분류에 대한 주관성 존재 가능성
실제 인간 대화 데이터와의 차이점에 대한 추가적인 분석 필요
👍