Sign In

Exploring LLM Agents for Cleaning Tabular Machine Learning Datasets

Created by
  • Haebom
Category
Empty

저자

Tommaso Bendinelli, Artur Dox, Christian Holz

개요

본 논문은 대규모 언어 모델(LLM)을 활용하여 머신러닝(ML) 모델 학습 데이터셋의 오류를 자동으로 검출하고 수정하는 방법을 연구했습니다. 의도적으로 오류를 삽입한 Kaggle 데이터셋을 사용하여 실험을 진행했으며, LLM과 Python을 결합하여 학습 파이프라인이나 특징 공학 없이 데이터셋을 정제했습니다. 실험 결과, LLM은 동일 행 내 다른 특징의 문맥 정보와 이전 반복의 피드백을 활용하여 비논리적인 값이나 이상치와 같은 오류를 식별하고 수정할 수 있음을 보였습니다. 하지만, 여러 행에 걸친 데이터 분포, 추세, 편향 등을 이해해야 하는 복잡한 오류는 감지하는 데 어려움을 보였습니다.

시사점, 한계점

시사점:
LLM이 머신러닝 데이터셋의 오류 수정에 활용될 수 있는 가능성을 제시.
LLM이 단순 오류 수정에 효과적임을 보여줌.
LLM 기반 자동 데이터 정제 시스템 개발의 가능성을 열어줌.
한계점:
복잡한 오류(데이터 분포, 추세, 편향 등) 검출에는 어려움을 보임.
LLM의 성능은 데이터의 특성에 따라 달라질 수 있음.
LLM을 활용한 데이터 정제의 전반적인 효율성 및 비용 효과에 대한 추가 연구 필요.
👍