Los conjuntos de datos abiertos a gran escala pueden acelerar la investigación ecológica. En este artículo, desarrollamos un recopilador de metadatos basado en LLM que extrae metadatos de diversos proveedores de datos con flexibilidad y los transforma a un formato definido por el usuario utilizando los estándares de metadatos existentes. Esta herramienta extrae metadatos estructurados y no estructurados con la misma precisión, mejorando aún más la precisión mediante un protocolo de posprocesamiento LLM. Además, identifica vínculos entre conjuntos de datos calculando la similitud de incrustación y unificando el formato de los metadatos extraídos. La herramienta desarrollada puede utilizarse para la creación de ontologías o consultas basadas en grafos, y para descubrir conjuntos de datos ecológicos y ambientales relevantes en entornos de investigación virtual.