본 논문에서는 대규모 문헌 데이터베이스에서 AI 관련 문서를 자동으로 분류하는 방법을 제안하고, DeepDiveAI라는 AI 관련 문헌 데이터셋을 생성합니다. 두 단계의 전반적인 과정을 통해 전문가 지식과 고급 모델의 기능을 통합하여 데이터셋을 구축합니다. 1단계에서는 전문가가 큐레이션한 분류 데이터셋을 사용하여 LSTM 모델을 훈련하여 대규모 데이터셋에서 AI 관련 기록을 대략적으로 분류합니다. 2단계에서는 Qwen2.5 Plus를 사용하여 대략적으로 분류된 AI 관련 기록 중 무작위 10%에 주석을 달고, 이를 사용하여 BERT 이진 분류기를 훈련합니다. 이 단계를 통해 AI 관련 기록 집합을 더욱 정제하여 최종 DeepDiveAI 데이터셋을 얻습니다. 평가 결과, 전체 워크플로우는 대규모 데이터셋에서 AI 관련 문헌을 효율적이고 정확하게 식별할 수 있음을 보여줍니다.