ChemRxivQuest는 화학 분야의 자연어 처리(NLP) 발전을 지원하기 위해 ChemRxiv 논문에서 추출한 970개의 고품질 질의응답(QA) 쌍으로 구성된 데이터셋입니다. 155개의 ChemRxiv 프리프린트에서 추출된 이 데이터셋은 17개의 화학 하위 분야를 다루며, 각 QA 쌍은 원본 텍스트 구간과 명시적으로 연결되어 추적 가능성과 맥락 정확성을 보장합니다. OCR, GPT-4 기반 QA 생성, 퍼지 매칭 기법을 활용한 자동화 파이프라인을 통해 구축되었으며, 개념적, 기전적, 응용적, 실험적 질문들을 강조하여 검색 기반 QA 시스템, 검색 엔진 개발, 도메인 적응형 대규모 언어 모델의 미세 조정 등에 활용될 수 있습니다. 데이터셋의 구조, 적용 범위, 한계를 분석하고, 향후 확장 및 전문가 검증 방향을 제시합니다.