StreamLink는 대규모 언어 모델(LLM) 기반의 분산 데이터 시스템으로, Apache Spark 및 Hadoop과 같은 분산 프레임워크를 기반으로 구축되어 대규모 데이터를 효율적이고 접근 가능하게 처리합니다. 사용자 데이터 프라이버시를 존중하기 위해 공용 AI 서비스 대신 로컬 미세 조정된 LLM을 사용하며, 도메인 적응형 LLM을 통해 다양한 시나리오에서 사용자의 자연어 질의 이해도를 높이고 SQL과 같은 데이터베이스 질의 생성 절차를 간소화합니다. 또한 LLM 기반 구문 및 보안 검사기를 통합하여 생성된 각 질의의 신뢰성과 안전성을 보장합니다. StreamLink는 생성형 LLM과 분산 데이터 처리의 통합을 통해 포괄적이고 사용자 중심적인 데이터 엔지니어링의 가능성을 보여줍니다. 자연어를 사용하여 수억 개의 항목 중에서 원하는 항목을 몇 초 내에 찾을 수 있으며, 기준 방법에 비해 SQL 생성 정확도가 10% 이상 향상되었습니다.