본 논문은 대규모 언어 모델(LLM)의 문화적 편향, 공정성, 다양한 언어 및 저자원 지역에서의 적용성에 대한 우려를 해결하기 위해 다국어, 지역 및 문화적 맥락에 중점을 둔 대규모 자원 개발의 필요성을 제기합니다. 이를 위해 연구진은 사용자 정의 시드 쿼리를 활용하고 검색 엔진을 통해 지역 특정 일상 정보를 수집하여 다양한 문화 및 지역에 맞춰 대규모 질의응답(QA) 데이터셋을 원활하게 구축할 수 있는 NativQA 프레임워크를 제안합니다. 24개국 39개 지역, 7개 언어(저자원 언어부터 고자원 언어까지)에 걸쳐 평가한 결과 30만 개가 넘는 질의응답 쌍을 생성하였으며, 이는 LLM 벤치마킹 및 추가 미세 조정에 사용될 수 있습니다. NativQA 프레임워크는 공개적으로 제공됩니다 (https://gitlab.com/nativqa/nativqa-framework).