CrypticBio는 시각적으로 구분하기 어려운 종들을 위한 최대 규모의 공개 멀티모달 데이터셋입니다. iNaturalist 커뮤니티의 종 오류 식별 패턴을 바탕으로 52,000개의 고유한 난해 종 그룹(67,000종, 1억 6천만 장의 이미지)을 포함합니다. 과학적, 다문화적, 다국어 종어, 계층적 분류, 시공간적 정보, 관련 난해 종 그룹 등 풍부한 주석이 포함되어 있으며, 데이터셋 생성을 위한 오픈소스 파이프라인 CrypticBio-Curate도 제공합니다. 지리적 및 시간적 데이터를 통합하여 시각-언어 이외의 멀티모달 AI 연구를 지원합니다. 기존 데이터셋의 한계(소규모, 수동 큐레이션, 단일 분류군 대상)를 극복하고, 다양한 분류군에 걸친 미묘한 차이 식별 과제를 해결합니다. 최첨단 기반 모델을 이용한 벤치마킹 결과, 지리적 정보가 난해 종에 대한 시각-언어 제로샷 학습에 큰 영향을 미침을 보여줍니다. 실제 환경에 적용 가능한 생물다양성 AI 모델 개발을 위한 발전을 촉진하는 것을 목표로 합니다.