본 논문은 표 형식 데이터의 머신러닝에서 중요한 과정인 특징 엔지니어링 자동화를 위해, 80억 매개변수 규모의 대규모 언어 모델 FeRG-LLM(Feature engineering by Reason Generation Large Language Models)을 제안합니다. FeRG-LLM은 두 단계의 대화형 대화를 통해 언어 모델이 머신러닝 과제를 분석하고 새로운 특징을 발견하도록 설계되었으며, Chain-of-Thought(CoT) 능력을 보여줍니다. Llama 3.1 8B 모델을 미세 조정하고 Direct Preference Optimization(DPO)을 통합하여 새로운 특징의 질과 모델 성능을 향상시키는 피드백을 받습니다. 실험 결과, FeRG-LLM은 대부분의 데이터셋에서 Llama 3.1 70B와 비슷하거나 더 나은 성능을 보이며, 리소스 소모 및 추론 시간을 단축합니다. 분류 작업에서는 다른 연구보다 우수한 성능을 보이며, 회귀 작업에서도 좋은 성능을 나타냅니다. 또한, GPT-4와 같은 클라우드 기반 LLM에 의존하지 않아 보안 문제를 해결하고, 로컬 배포가 가능합니다.