Data-Juicer 2.0은 방대한 다양한 모달리티(텍스트, 이미지, 비디오, 오디오) 데이터를 처리하는 데 초점을 맞춘 데이터 처리 시스템이다. 기존 시스템의 한계를 극복하고자 100개 이상의 데이터 처리 연산자를 제공하며, 데이터 분석, 합성, 주석 및 기초 모델 사후 훈련과 같은 중요 작업을 지원한다. Hugging Face 및 Ray와의 호환성을 통해 사용 편의성, 효율성 및 프로그래밍 기능을 향상시켰으며, 사용자 인터페이스 계층, RESTful API 및 대화형 명령어를 지원한다. 적응형 실행 및 관리를 위한 최적화된 런타임 계층을 통해 다양한 데이터 규모, 처리 요구 사항 및 컴퓨팅 환경에서 효율적인 처리를 가능하게 한다. TB급 데이터와 10,000개 이상의 CPU 코어를 사용한 실험 결과를 통해 성능과 확장성을 입증하였으며, Alibaba Cloud PAI 등 다양한 연구 분야와 실제 제품에 적용되어 활용되고 있다.