Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Lost in the Pipeline: How Well Do Large Language Models Handle Data Preparation?

Created by
  • Haebom
Category
Empty

저자

Matteo Spreafico, Ludovica Tassini, Camilla Sancricca, Cinzia Cappiello

개요

본 논문은 대규모 언어 모델(LLM)이 데이터 준비 작업에서 사용자를 효과적으로 지원할 수 있는지, 특히 데이터 프로파일링 및 정리와 같은 작업에서 그 능력을 평가하는 연구를 제시한다. 일반 목적 및 미세 조정된 표 형식 LLM을 사용하고, 품질이 낮은 데이터 세트를 입력하여 성능을 측정했다. LLM의 지원을 기존 데이터 준비 도구와 비교하고, 사용자 연구를 통해 검증된 맞춤형 품질 모델을 사용하여 LLM의 능력을 평가한다.

시사점, 한계점

LLM은 데이터 준비 작업에서 잠재적인 지원을 제공할 수 있다.
데이터 프로파일링 및 데이터 정리와 같은 특정 작업에서 LLM의 성능을 평가했다.
LLM의 성능을 기존 도구와 비교하여 장단점을 파악했다.
사용자 연구를 통해 LLM의 능력 평가를 위한 품질 모델을 구축했다.
연구의 구체적인 결과 및 LLM의 한계점에 대한 내용은 논문에서 상세히 제시될 것이다.
👍