대규모 공개 데이터셋은 생태학 연구를 가속화할 수 있다. 본 논문에서는 다양한 데이터 제공 플랫폼에서 메타데이터를 유연하게 추출하고, 기존 메타데이터 표준을 사용하여 사용자 정의 형식으로 변환하는 LLM 기반 메타데이터 수집기를 개발했다. 이 도구는 구조화된 메타데이터와 비구조화된 메타데이터를 모두 동일한 정확도로 추출하며, LLM 후처리 프로토콜을 통해 정확도를 높인다. 또한, 임베딩 유사성 계산 및 추출된 메타데이터 형식 통일을 통해 데이터셋 간의 링크를 식별한다. 개발된 도구는 온톨로지 생성 또는 그래프 기반 쿼리에 사용될 수 있으며, 가상 연구 환경에서 관련 생태 및 환경 데이터셋을 찾는 데 활용될 수 있다.