본 논문은 당뇨병 관리를 위한 최첨단 디지털 건강 기술에서 중요한 역할을 하는 인공지능(AI) 알고리즘 개발의 어려움을 해결하기 위해, 2018년부터 2025년까지 발표된 10개의 공개 당뇨병 데이터셋을 포함하는 Glucose-ML 컬렉션을 제시합니다. Glucose-ML은 4개국 2500명 이상의 1형 당뇨병, 2형 당뇨병, 당뇨병 전 단계 및 비당뇨병 환자의 300만 일 이상의 연속 혈당 측정기(CGM) 데이터(총 3800만 개의 혈당 샘플)를 포함합니다. 연구자들이 이 데이터셋을 효과적으로 활용할 수 있도록 데이터셋 비교 분석과 혈당 예측이라는 AI 과제를 중심으로 한 사례 연구를 제공합니다. 사례 연구를 통해 동일한 알고리즘이라도 데이터셋에 따라 예측 결과가 크게 달라질 수 있음을 보여주고, 이를 바탕으로 강력한 AI 솔루션 개발을 위한 권고안을 제시합니다. 모든 데이터셋에 대한 링크와 코드를 공개합니다.