Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Forging Time Series with Language: A Large Language Model Approach to Synthetic Data Generation

Created by
  • Haebom

저자

Cecile Rousseau, Tobia Boschi, Giandomenico Cornacchia, Dhaval Salwala, Alessandra Pascale, Juan Bernabe Moreno

개요

SDForger는 대규모 언어 모델(LLM)을 활용하여 고품질 다변량 시계열을 생성하는 유연하고 효율적인 프레임워크입니다. 압축된 데이터 표현을 활용하여 소량의 샘플과 저렴한 계산 비용의 미세 조정만으로도 임의의 자기회귀 LLM을 통해 합성 시계열을 생성합니다. 단변량 및 다변량 신호를 표 형식의 임베딩으로 변환한 후 텍스트로 인코딩하여 LLM을 미세 조정합니다. 추론 시 새로운 텍스트 임베딩을 샘플링하고 원본 데이터의 통계적 특성과 시간적 역학을 유지하는 합성 시계열로 디코딩합니다. 다양한 데이터 세트에서 SDForger는 유사성 기반 평가와 후속 예측 작업 모두에서 기존 생성 모델보다 여러 시나리오에서 우수한 성능을 보입니다. 생성 과정에서 텍스트 조건화를 가능하게 함으로써 SDForger는 다중 모드 모델링과 시계열과 텍스트 정보의 간소화된 통합을 위한 길을 열어줍니다. SDForger 소스 코드는 곧 공개될 예정입니다.

시사점, 한계점

시사점:
소량의 데이터로 고품질 다변량 시계열 생성 가능
저렴한 계산 비용으로 LLM 미세 조정 가능
기존 생성 모델 대비 우수한 성능
텍스트 조건화를 통한 다중 모드 모델링 가능
시계열과 텍스트 정보의 간소화된 통합 가능
오픈소스를 통해 접근성 향상
한계점:
아직 공개되지 않은 소스 코드의 안정성 및 성능 검증 필요
다양한 유형의 시계열 데이터에 대한 일반화 성능 평가 필요
특정 유형의 시계열 데이터에 대한 편향 가능성 존재 여부 확인 필요
실제 응용 분야에서의 성능 검증 필요
👍