애플, 일부 GPT-4·제미나이 능가하는 '이미지-텍스트' 모델 공개
애플, 300억 매개변수를 가진 최신 이미지-텍스트 멀티모달 모델 'MM1'을 공개 애플이 공개한 최고 성능의 이미지-텍스트 멀티모달 모델은 300억 매개변수를 자랑하며, 이미지를 읽고 자연어로 설명하는 능력에서 기존의 오픈AI 'GPT-4' 및 구글 '제미나이 울트라'와 같은 경쟁 모델을 일부 분야에서 추월했다고 합니다. 이 대형 멀티모달 모델은 이미지 생성 능력은 없지만, 이미지 인코더와 비전-언어 커넥터를 활용해 다양한 사전 훈련 데이터를 통해 고성능을 달성하기 위한 방법과 통찰을 제공합니다. 연구진은 이미지 해상도와 토큰 수를 중요한 요소로 보면서, 이미지와 텍스트 데이터의 혼합을 통한 벤치마크 최고 성능 달성의 중요성을 강조했습니다. MM1 모델은 이미지 인식, 읽기, 기본 계산 등 복잡한 문제 해결에 뛰어난 성능을 보여, 현 최고 수준의 AI 기술을 한 단계 더 발전시키는데 기여했습니다. 애플은 이러한 성과를 바탕으로 AI 연구 및 개발에 본격적으로 나서, 온디바이스 AI 구축을 위한 전용 칩과 최적화된 기술을 개발하고, 최근에는 10억 달러를 투자해 제품 라인업 전반에 생성 AI를 도입하려는 계획을 밝혔습니다. <원문 링크>
1