본 논문은 최첨단 대규모 언어 모델(LLM)들이 시각적 세계에 대한 계층적 지식이 부족하며, 잘 확립된 생물 분류 체계조차 인식하지 못한다는 것을 밝힙니다. 이러한 단점으로 인해 LLM은 시각 LLM의 계층적 시각적 이해(예: 말미잘을 인식하지만 척추동물은 인식하지 못함)의 병목 현상을 야기합니다. 연구진은 6개의 분류 체계와 4개의 이미지 데이터 세트를 기반으로 약 100만 개의 4지 선다형 시각적 질문 응답(VQA) 작업을 사용하여 이러한 결과를 얻었습니다. 흥미롭게도, VQA 작업을 사용하여 시각 LLM을 미세 조정하면 시각 LLM보다 LLM의 계층적 일관성이 더 향상되어 LLM의 병목 현상 효과를 어느 정도 재확인합니다. 연구진은 LLM이 해당 분류 체계 지식을 갖추기 전까지는 시각 LLM이 시각적 개념을 완전히 계층적으로 이해할 수 없을 것이라고 추측합니다.