헝가리어 음성 기술 발전을 위해, 기존 BEA 헝가리어 음성 코퍼스에서 처리되지 않은 부분을 활용하여 두 개의 새로운 데이터셋, BEA-Large와 BEA-Dialogue를 소개합니다. BEA-Large는 433명의 화자로부터 255시간의 자발적인 음성을 포함하며 세분화된 메타데이터를 제공합니다. BEA-Dialogue는 85시간의 자발적인 대화를 담은 헝가리어 음성 코퍼스로, 대화형 ASR 및 화자 다이어라이제이션 연구를 지원합니다. 공개 ASR 모델을 사용하여 데이터셋에 대한 재현 가능한 baseline을 구축했으며, fine-tuned Fast Conformer 모델은 자발적 음성에서 14.18%, 반복된 음성에서 4.8%의 단어 오류율을 달성했습니다. 다이어라이제이션 실험에서는 13.05%에서 18.26% 사이의 오류율을 보였습니다.