본 논문은 특정 데이터셋과 이를 활용한 과학 문헌 간의 연관성을 파악하는 연구의 일환으로, 사전 훈련된 변환기 기반 대규모 언어 모델(LLM)을 사용하여 출판된 문헌에서 데이터 사용 사례를 설명하는 방법을 제시한다. 특히, 오픈 소스 LLM인 Llama 3.1-405B를 활용하여 특정 유전체 데이터셋을 포함하는 간행물에 대한 구조화된 데이터 사용 사례 레이블을 생성하고, 효율성을 평가하기 위한 새로운 프레임워크를 도입했다. 결과적으로, 모델은 사전 정의된 범주 없이 제로샷 데이터 인용 분류 작업에서 F1 점수 0.674를 달성했다.