BIOSCAN-5M: A Multimodal Dataset for Insect Biodiversity
Created by
Haebom
Category
Empty
저자
Zahra Gharaee, Scott C. Lowe, ZeMing Gong, Pablo Millan Arias, Nicholas Pellegrino, Austin T. Wang, Joakim Bruslund Haurum, Iuliia Zarubiieva, Lila Kari, Dirk Steinke, Graham W. Taylor, Paul Fieguth, Angel X. Chang
개요
BIOSCAN-5M Insect 데이터셋은 5백만 개 이상의 곤충 표본에 대한 다중 모달 정보(분류학적 레이블, 원시 뉴클레오티드 바코드 시퀀스, 바코드 색인 번호, 지리적 정보, 크기 정보)를 포함하는 포괄적인 데이터셋입니다. 본 논문에서는 이 데이터셋을 기계 학습 커뮤니티에 공개하고, 세 가지 벤치마크 실험(DNA 바코드 시퀀스를 이용한 마스크 언어 모델 사전 학습 및 분류, 영상 및 DNA 바코드에 대한 제로샷 전이 학습을 이용한 클러스터링, DNA 바코드, 영상 데이터, 분류학적 정보에 대한 대조 학습)을 통해 다중 모달 데이터 유형이 분류 및 클러스터링 정확도에 미치는 영향을 보여줍니다. GitHub(https://github.com/bioscan-ml/BIOSCAN-5M)에서 데이터셋 코드 저장소를 이용할 수 있습니다.
시사점, 한계점
•
시사점:
◦
5백만 개 이상의 곤충 표본에 대한 다중 모달 정보를 포함하는 대규모 데이터셋 BIOSCAN-5M을 제공하여 곤충 생물다양성 연구에 기여.
◦
다중 모달 데이터를 활용한 곤충 분류 및 클러스터링 성능 향상 가능성 제시.
◦
DNA 바코드 기반 마스크 언어 모델 사전 학습 및 제로샷 전이 학습 등 새로운 접근 방식 제시.