# ChemRxivQuest: A Curated Chemistry Question-Answer Database Extracted from ChemRxiv Preprints

### 저자

Mahmoud Amiri, Thomas Bocklitz

### 개요

ChemRxivQuest는 화학 분야의 자연어 처리(NLP) 발전을 지원하기 위해 제작된 970개의 고품질 질문-답변(QA) 쌍으로 구성된 데이터셋입니다. 155개의 ChemRxiv 논문 사전 인쇄본에서 추출되었으며, 17개의 화학 하위 분야를 다룹니다. 각 QA 쌍은 원본 텍스트 구간과 명시적으로 연결되어 추적 가능성과 문맥적 정확성을 보장합니다. OCR, GPT-4 기반 QA 생성, 퍼지 매칭 기법을 결합한 자동화 파이프라인을 사용하여 생성되었으며, 개념적, 기전적, 응용적, 실험적 질문을 강조합니다. 검색 기반 QA 시스템, 검색 엔진 개발, 도메인 적응 대규모 언어 모델의 미세 조정 등에 활용될 수 있습니다.  데이터셋의 구조, 적용 범위 및 한계를 분석하고, 향후 확장 및 전문가 검증 방향을 제시합니다. 화학 NLP 연구, 교육 및 도구 개발을 위한 기초 자료를 제공합니다.

### 시사점, 한계점

- **시사점:**

    - 화학 분야 NLP 연구를 위한 고품질 QA 데이터셋 제공

    - 검색 기반 QA 시스템, 검색 엔진 개발, 도메인 적응 대규모 언어 모델 미세 조정에 활용 가능

    - 다양한 유형의 화학 관련 질문(개념적, 기전적, 응용적, 실험적) 포함

    - 원본 텍스트와의 명시적 연결을 통한 추적 가능성 및 정확성 확보

- **한계점:**

    - 자동화 파이프라인을 사용하여 생성되었으므로, 전문가 검증이 필요할 수 있음

    - 데이터셋의 규모가 상대적으로 작을 수 있음

    - 특정 화학 하위 분야에 편향될 가능성이 있음

    - 향후 확장 및 전문가 검증을 위한 추가적인 노력이 필요함

[PDF 보기](https://arxiv.org/pdf/2505.05232)

![https://i.imgur.com/XcogpOJ.jpeg](https://i.imgur.com/XcogpOJ.jpeg)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
