DeFine은 장문 기사 생성(LFAG)의 어려움(논리적 일관성 유지, 주제의 포괄적 다룸, 장문 기사 전반의 서술적 일관성)을 해결하기 위해 고안된, 계층적으로 분해되고 세분화된 주석이 달린 새로운 데이터셋입니다. 기존 데이터셋의 계층적 구조 및 세분화된 주석 부족 문제를 해결하기 위해, 도메인 특정 지식과 다중 수준 주석을 통합한 계층적 분해 전략을 채택했습니다. 데이터셋 구축에는 데이터 마이닝, 인용 검색, Q&A 주석, 데이터 정제의 네 단계로 구성된 다중 에이전트 협업 파이프라인을 사용했습니다. 웹 검색, 로컬 검색, 근거 참조 기반의 세 가지 LFAG 기준 모델을 통해 DeFine의 효과를 검증하였고, Qwen2-7b-Instruct 모델을 DeFine으로 미세 조정하여 주제 다루는 범위, 정보의 깊이, 내용의 충실도 측면에서 텍스트 품질의 향상을 확인했습니다. DeFine 데이터셋은 공개적으로 제공됩니다.