Sign In

WebFAQ: A Multilingual Collection of Natural Q&A Datasets for Dense Retrieval

Created by
  • Haebom
Category
Empty

저자

Michael Dinzinger, Laura Caspari, Kanishka Ghosh Dastidar, Jelena Mitrovic, Michael Granitzer

개요

WebFAQ는 schema.org 주석에서 파생된 대규모 개방형 질의응답 데이터셋입니다. 75개 언어로 총 9,600만 개의 자연어 질의응답 쌍(그 중 4,700만 개, 49%는 비영어)으로 구성됩니다. 1,120만 개의 질의응답 쌍(590만 개는 비영어)으로 이루어진 20개의 일어 단어 검색 벤치마크의 기반이 됩니다. 정교한 필터링 및 중복 감지 과정을 거쳐 고품질의 다국어 밀집 검색 모델 학습 및 평가 자원을 제공합니다. WebFAQ의 효과를 실증하기 위해, 수집된 질의응답을 사용하여 도메인 내 사전 학습된 XLM-RoBERTa 모델을 미세 조정했습니다. 이를 통해 WebFAQ를 넘어 제로샷 설정에서 평가된 다른 다국어 검색 벤치마크에도 일반화되는 상당한 검색 성능 향상을 달성했습니다. 또한 최첨단 바이텍스트 마이닝과 자동화된 LLM 기반 번역 평가를 사용하여 1,000개 이상의 언어 쌍에 걸쳐 질의응답 정렬 이중언어 말뭉치를 구성했습니다. 자동화된 바이텍스트 데이터셋 생성 방법 덕분에 생성된 이중언어 말뭉치는 유사한 데이터셋에 비해 더 높은 번역 품질을 보입니다. WebFAQ 및 모든 관련 리소스는 GitHub와 HuggingFace에서 공개적으로 제공됩니다.

시사점, 한계점

시사점:
75개 언어, 9,600만 개의 질의응답 쌍으로 구성된 대규모 다국어 질의응답 데이터셋 WebFAQ 제공.
고품질의 다국어 밀집 검색 모델 학습 및 평가에 활용 가능한 고품질 자원 제공.
WebFAQ 기반 미세 조정을 통해 향상된 다국어 검색 성능 달성 및 제로샷 설정에서의 일반화 가능성 확인.
고품질의 질의응답 정렬 이중언어 말뭉치 생성 및 제공.
GitHub 및 HuggingFace를 통한 공개적인 접근성 제공.
한계점:
WebFAQ 데이터셋의 편향성 및 대표성에 대한 자세한 분석 부족.
사용된 LLM 기반 번역 평가 방법의 신뢰성 및 한계에 대한 논의 부족.
특정 도메인에 편향될 가능성에 대한 검토 필요.
👍