GovBench: Benchmarking LLM Agents for Real-World Data Governance Workflows

Created by

Haebom

저자

Zhou Liu, Zhaoyang Han, Guochen Yan, Hao Liang, Bohan Zeng, Xing Chen, Yuanfeng Song, Wentao Zhang

개요

본 논문은 현대 AI 개발 확장의 핵심 기반인 데이터 거버넌스의 중요성을 강조하며, 데이터 거버넌스 자동화를 위한 대규모 언어 모델(LLM)의 활용 가능성을 제시합니다. 기존 벤치마크의 한계를 극복하기 위해, 실제 데이터 기반의 150개 태스크로 구성된 GovBench를 제안하고, 이를 통해 현존하는 모델들이 복잡한 워크플로우 처리와 오류 수정에 어려움을 겪는다는 것을 밝힙니다. 이러한 문제점을 해결하기 위해 제안된 DataGovAgent는 Planner-Executor-Evaluator 아키텍처를 기반으로 하며, constraint-based planning, retrieval-augmented generation, sandboxed feedback-driven debugging을 통합하여 성능을 향상시킵니다.