Sign In

DeFine: A Decomposed and Fine-Grained Annotated Dataset for Long-form Article Generation

Created by
  • Haebom
Category
Empty

저자

Ming Wang, Fang Wang, Minghao Hu, Li He, Haiyang Wang, Jun Zhang, Tianwei Yan, Li Li, Zhunchen Luo, Wei Luo, Xiaoying Bai, Guotong Geng

개요

DeFine은 장문 기사 생성(LFAG)의 어려움(논리적 일관성 유지, 주제의 포괄적 다룸, 장문 기사 전반의 서술적 일관성)을 해결하기 위해 고안된, 계층적으로 분해되고 세분화된 주석이 달린 새로운 데이터셋입니다. 기존 데이터셋의 계층적 구조 및 세분화된 주석 부족 문제를 해결하기 위해, 도메인 특정 지식과 다중 수준 주석을 통합한 계층적 분해 전략을 채택했습니다. 데이터셋 구축에는 데이터 마이닝, 인용 검색, Q&A 주석, 데이터 정제의 네 단계로 구성된 다중 에이전트 협업 파이프라인을 사용했습니다. 웹 검색, 로컬 검색, 근거 참조 기반의 세 가지 LFAG 기준 모델을 통해 DeFine의 효과를 검증하였고, Qwen2-7b-Instruct 모델을 DeFine으로 미세 조정하여 주제 다루는 범위, 정보의 깊이, 내용의 충실도 측면에서 텍스트 품질의 향상을 확인했습니다. DeFine 데이터셋은 공개적으로 제공됩니다.

시사점, 한계점

시사점:
계층적 구조와 세분화된 주석을 통해 장문 기사 생성의 질적 향상에 기여할 수 있는 새로운 데이터셋을 제공합니다.
다중 에이전트 협업 파이프라인을 통해 효율적인 데이터셋 구축 방법을 제시합니다.
DeFine을 이용한 실험 결과, 주제 다루는 범위, 정보의 깊이, 내용의 충실도가 향상됨을 보여줍니다.
공개 데이터셋으로 향후 연구에 기여할 수 있습니다.
한계점:
제시된 다중 에이전트 파이프라인의 구체적인 알고리즘 및 성능에 대한 자세한 설명이 부족합니다.
사용된 기준 모델 및 미세 조정 방법에 대한 상세한 설명이 필요합니다.
데이터셋의 규모 및 다양성에 대한 구체적인 정보가 제한적입니다.
다른 장문 생성 모델과의 비교 분석이 부족합니다.
👍