본 논문은 현대 시스템에서 멀티미디어 머신 러닝 모델 동시 훈련 시 흔히 발생하는 병목 현상인 입력 데이터 전처리를 해결하기 위해, 캐시 분할 및 데이터 샘플링을 최적화하는 데이터 로딩 시스템 Seneca를 제안한다. Seneca는 데이터 저장 및 수집 파이프라인(DSI)을 위해 설계되었으며, 세 가지 형태의 데이터(인코딩, 디코딩, 증강)에 대한 최적의 캐시 분할을 위한 성능 모델과, 동시 작업 간의 상호 이점을 위해 캐싱된 데이터를 비캐싱된 데이터보다 우선적으로 제공하는 기법을 사용한다. PyTorch를 수정하여 구현되었으며, DNN 훈련을 위한 최첨단 캐싱 시스템들과 비교하여 makespan을 45.23% 감소시키고, 데이터 처리 처리량을 최대 3.45배 증가시키는 효과를 입증했다.