구글은 최신 다기능 시각 언어 모델인 PaliGemma 2 Mix를 발표했습니다. 이 모델은 복잡한 시각 언어 작업을 처리하고, 개방형 프롬프트 및 문서 내용을 이해하는 기능을 갖추고 있습니다. 세 가지 버전(3B, 10B, 28B)으로 제공되며, 시각 질문 응답, 이미지 설명, 문서 이해 작업 등 다양한 기능을 지원합니다.
구글은 최신 다기능 시각 언어 모델 시리즈인 PaliGemma 2 Mix를 발표했습니다 이 모델은 복잡한 시각 언어 작업을 처리할 수 있으며 개방형 프롬프트를 지원하고 문서 내용을 이해할 수 있습니다 또한 분할 감지 작업도 지원합니다 모델은 3B 10B 28B의 세 가지 버전으로 제공됩니다 이 모델은 시각 질문 응답 이미지 설명 이미지 참조 등 일반적인 시각 언어 작업을 지원하며 차트 이해 정보 그래픽 질문 응답 도표 분석 등 문서 이해 작업도 가능합니다 또한 OCR 및 물체 감지 이미지 분할을 지원합니다