WebFAQ는 schema.org 주석에서 파생된 대규모 개방형 질의응답 데이터셋입니다. 75개 언어로 총 9,600만 개의 자연어 질의응답 쌍(그 중 4,700만 개, 49%는 비영어)으로 구성됩니다. 1,120만 개의 질의응답 쌍(590만 개는 비영어)으로 이루어진 20개의 일어 단어 검색 벤치마크의 기반이 됩니다. 정교한 필터링 및 중복 감지 과정을 거쳐 고품질의 다국어 밀집 검색 모델 학습 및 평가 자원을 제공합니다. WebFAQ의 효과를 실증하기 위해, 수집된 질의응답을 사용하여 도메인 내 사전 학습된 XLM-RoBERTa 모델을 미세 조정했습니다. 이를 통해 WebFAQ를 넘어 제로샷 설정에서 평가된 다른 다국어 검색 벤치마크에도 일반화되는 상당한 검색 성능 향상을 달성했습니다. 또한 최첨단 바이텍스트 마이닝과 자동화된 LLM 기반 번역 평가를 사용하여 1,000개 이상의 언어 쌍에 걸쳐 질의응답 정렬 이중언어 말뭉치를 구성했습니다. 자동화된 바이텍스트 데이터셋 생성 방법 덕분에 생성된 이중언어 말뭉치는 유사한 데이터셋에 비해 더 높은 번역 품질을 보입니다. WebFAQ 및 모든 관련 리소스는 GitHub와 HuggingFace에서 공개적으로 제공됩니다.