본 논문은 기후변화와 곤충류의 심각한 생물다양성 손실 문제에 대응하여, 이미지 기반 자동 분류 시스템의 한계를 극복하고자 연구되었습니다. 기존 CNN이나 ViT 기반의 AI 파이프라인은 희귀 종에 대한 성능 저하 및 예측 이유 설명의 어려움을 보였습니다. 본 연구는 이미지 캡션 생성 및 검색 증강 생성(RAG)과 대규모 언어 모델(LLM)을 통합하여 생물다양성 모니터링을 향상시키는 새로운 방법을 제시합니다. 특히 희귀 및 미지의 절지동물 종 특징 분석에 효과적임을 보였습니다. 일반적인 종 이미지 분류에는 기본적인 Vision-Language Model(VLM)이 뛰어나지만, RAG 모델은 외부 데이터베이스의 분류학적 특징 설명과의 매칭을 통해 희귀 분류군의 분류를 가능하게 합니다. RAG 모델은 과신을 줄이고 정확도를 높여, 특히 어려운 과(family) 및 속(genus) 수준의 분류학적 계층의 미묘한 차이를 포착하는 데 효과적임을 보여줍니다. 이 연구는 현대 비전-언어 AI 파이프라인이 생물다양성 보존 노력을 지원할 수 있는 잠재력을 강조하며, 종 식별 및 미지 종 특징 분석 개선을 위한 종합적인 데이터 관리 및 시민 과학 플랫폼과의 협력의 중요성을 보여줍니다.