수십만 명의 직원 기록을 관리하는 대규모 기업 ERP 시스템에서 발생하는 데이터 품질 문제를 해결하기 위해, 자동화된 데이터 정제와 LLM 기반 SQL 쿼리 생성을 결합한 엔드 투 엔드 파이프라인을 제시합니다. 이 시스템은 6개월 동안 24만 명의 직원 기록을 관리하는 프로덕션 시스템에 배포되었습니다. 파이프라인은 Microsoft SQL Server에서 PostgreSQL로의 주기적인 동기화 중에 번역 정규화, 맞춤법 수정, 엔터티 중복 제거를 수행하는 다단계 데이터 정제 파이프라인과, GPT-4o를 사용하여 터키어, 러시아어 및 영어로 된 자연어 질문을 검증된 SQL 쿼리로 변환하는 검색 증강 생성 프레임워크로 구성됩니다. 이 쿼리 엔진은 LangChain 오케스트레이션, FAISS 벡터 유사성 검색, 그리고 500개 이상의 검증된 예제를 사용한 소수 샷 학습을 활용합니다.