본 논문은 수억 개의 세포를 포함하는 현대 단일 세포 데이터셋의 딥러닝 모델 학습에 대한 어려움을 해결하기 위해, AnnData 형식의 데이터를 효율적으로 처리하는 PyTorch IterableDataset인 scDataset을 제시합니다. scDataset은 형식 변환 없이 하나 이상의 AnnData 파일을 직접 처리하며, 블록 샘플링과 배치 가져오기를 결합하여 무작위성과 I/O 효율성의 균형을 맞춥니다. Tahoe 100M 데이터셋을 사용한 실험 결과, AnnLoader, HuggingFace Datasets, BioNeMo 등 기존 방법들보다 상당히 빠른 속도(최대 48배)를 달성함을 보여줍니다. 이를 통해 대규모 단일 세포 모델 학습을 보다 쉽게 접근할 수 있도록 합니다.