Why Do Open-Source LLMs Struggle with Data Analysis? A Systematic Empirical Study
Created by
Haebom
저자
Yuqi Zhu, Yi Zhong, Jintian Zhang, Ziheng Zhang, Shuofei Qiao, Yujie Luo, Lun Du, Da Zheng, Ningyu Zhang, Huajun Chen
개요
본 논문은 오픈소스 대규모 언어 모델(LLM)의 데이터 분석 능력 향상 전략을 연구합니다. 다양한 현실적 시나리오로 구성된 시드 데이터셋을 활용하여 데이터 이해, 코드 생성, 전략적 계획 수립 세 가지 핵심 차원에서 모델의 행동을 평가합니다. 평가 결과, 전략적 계획 수립의 질이 모델 성능을 결정하는 주요 요소이며, 상호작용 디자인과 작업 복잡도가 추론 능력에 상당한 영향을 미치고, 데이터 품질이 다양성보다 최적 성능 달성에 더 큰 영향을 미친다는 세 가지 주요 발견을 제시합니다. 이러한 통찰력을 바탕으로 데이터 합성 방법론을 개발하여 오픈소스 LLM의 분석적 추론 능력을 크게 향상시켰습니다. 코드는 https://github.com/zjunlp/DataMind 에서 확인할 수 있습니다.