본 논문은 Edge, Cloud, HPC 환경을 아우르는 과학적 데이터 처리 워크플로우에서 생성되는 방대한 provenance 데이터 분석의 어려움을 해결하기 위해, 대규모 언어 모델(LLM) 에이전트 기반의 상호작용적 데이터 분석 방법론, 참조 아키텍처, 그리고 오픈소스 구현을 제시한다. 경량의 메타데이터 기반 설계를 통해 자연어 질문을 구조화된 provenance 쿼리로 변환하고, LLaMA, GPT, Gemini, Claude 등 다양한 LLM을 이용하여 실제 화학 워크플로우를 대상으로 평가하였다. 모듈형 설계, 프롬프트 튜닝, 그리고 Retrieval-Augmented Generation (RAG)을 통해 기록된 provenance 데이터를 넘어 정확하고 통찰력 있는 응답을 얻을 수 있음을 보였다.