본 논문은 데이터셋의 법적 위험성 평가에 라이선스 조항만으로는 부족하며, 데이터셋 재분배 및 전체 라이프사이클 추적이 필수적임을 주장합니다. 이는 사람이 수동으로 처리하기에는 너무 복잡하기 때문에, AI 에이전트를 활용한 자동화된 데이터 준수 시스템인 NEXUS를 개발하여 데이터셋 재분배 추적, 규정 준수 분석, 법적 위험 식별을 수행합니다. 17,429개의 고유 엔티티와 8,072개의 라이선스 조항에 대한 대규모 법적 분석을 통해 재분배 전후 데이터셋의 법적 권리 불일치를 밝히고, 데이터 라이프사이클 인식 준수의 필요성을 강조합니다. 예를 들어, 상업적으로 활용 가능한 개별 라이선스 조항이 있는 2,852개의 데이터셋 중 605개(21%)만이 상업적 이용이 법적으로 허용되는 것으로 나타났습니다. 이 연구는 투명하고 합법적이며 책임감 있는 데이터셋 관리를 위해 데이터셋 재분배의 전체 라이프사이클을 체계적으로 검토하는 프레임워크를 지지하며, AI 데이터 거버넌스에 대한 새로운 기준을 제시합니다.