본 논문은 대규모 언어 모델(LLM)을 활용하여 머신러닝(ML) 모델 학습 데이터셋의 오류를 자동으로 검출하고 수정하는 방법을 연구했습니다. 의도적으로 오류를 삽입한 Kaggle 데이터셋을 사용하여 실험을 진행했으며, LLM과 Python을 결합하여 학습 파이프라인이나 특징 공학 없이 데이터셋을 정제했습니다. 실험 결과, LLM은 동일 행 내 다른 특징의 문맥 정보와 이전 반복의 피드백을 활용하여 비논리적인 값이나 이상치와 같은 오류를 식별하고 수정할 수 있음을 보였습니다. 하지만, 여러 행에 걸친 데이터 분포, 추세, 편향 등을 이해해야 하는 복잡한 오류는 감지하는 데 어려움을 보였습니다.