Sign In
해봄의 아카이브

Google, GPT-4를 능가하는 모델 Gemini 발표

Haebom
Gemini는 지금 부터 바로 Bard에 적용 되었습니다. AI 기술은 인간의 삶을 혁신하는 중요한 변곡점이 되었습니다. 구글의 Gemini AI는 이러한 변화를 선도하는 최신 기술 중 하나로서, 텍스트, 이미지, 오디오, 비디오 등 다양한 정보 유형을 이해하고 처리할 수 있는 멀티모달 AI 모델입니다.
Gemini는 테크 리포트를 통해 현존하는 가장 강력한 파운데이션 모델인 GPT-4의 성능을 능가한다고 하였으며 텍스트 생성 뿐 아니라 멀티모달 인식 및 처리에도 앞선 성능을 보여준다는 실험 경과를 공개했습니다. 또한 하나의 모델이 아닌 크기에 따른 Gemini Ultra, Gemini Pro, Gemini Nano 세가지 모델을 출시하였으며 공개적으로 Nano의 파라미터 수를 공개했는데 그 크기가 Nano-1의 경우 1.8B, Nano-2의 경우 3.25B입니다. 진정한 sLM이라 할 수 있을 것 같네요.
Gemini_tech_report_Resized.pdf1.66MB

성능에 대한 자신감

텍스트 처리 능력

Gemini Ultra는 57개 주제를 아우르는 MMLU 벤치마크에서 90.0%의 성능을 보여, 인간 전문가를 초과하는 능력을 보였습니다.
같은 테스트에서 OpenAI의 GPT-4는 86.4%로 Gemini Ultra에 비해 다소 낮은 성능을 보였으며, 복잡한 수학적 추론에 관한 Big-Bench Hard에서도 Gemini Ultra가 83.6%로 GPT-4의 83.1%를 앞질렀습니다.

멀티모달 처리 능력

이미지 이해에서 Gemini Ultra는 77.8% GPT-4V의 77.2%보다 약간 높은 성능을 나타냈습니다.
문서 이해 분야에서도 Gemini Ultra가 90.9% GPT-4V의 88.4%를 능가했습니다.

주목할 점

멀티모달 이해: Gemini AI는 멀티모달 이해 능력에서 현재의 SOTA(State of the Art) 모델을 뛰어넘었습니다. OCR 시스템의 도움 없이도 이미지에서의 문제를 이해하고 해결하는 능력을 보여줍니다.
코드 생성: Python과 같은 인기 있는 프로그래밍 언어에서 고품질 코드를 생성할 수 있습니다. 이는 개발자들이 더 빠르고 효율적으로 앱을 출시하고 서비스를 개선할 수 있도록 돕습니다.

모델 규모별 특징

Gemini Ultra는 가장 큰 모델로서 복잡한 작업을 처리할 수 있는 가장 강력한 성능을 제공합니다.
매우 복잡한 작업: Gemini Ultra는 매우 복잡한 작업을 처리하도록 설계되었으며, 이 영역에서 탁월한 성능을 발휘합니다. 여러 주요 벤치마크에서 최첨단 성능을 달성합니다.
멀티모달 이해: 멀티모달 모델인 Gemini Ultra는 텍스트, 이미지, 오디오, 비디오 등 다양한 유형의 데이터를 이해하고 추론하는 데 있어 강력한 성능을 발휘합니다.
대규모 및 효율성: 대규모의 TPUv4 가속기를 사용하여 학습되며 대규모의 효율적인 운영에 최적화되어 있습니다.
최첨단 성능: Gemini Ultra는 MMLU 벤치마크에서 90.04%라는 놀라운 정확도를 달성했으며 수학 및 코딩과 같은 다른 영역에서도 강력한 성능을 보여줍니다.
Gemini Pro는 다양한 범위의 작업에 걸쳐 효율적으로 확장될 수 있는 모델입니다.
다양한 작업에서 확장 가능: Gemini Pro는 다양한 작업에 걸쳐 확장하는 데 가장 적합합니다. 인프라 및 학습 알고리즘을 통해 Gemini Ultra보다 적은 리소스를 활용하여 신속한 사전 학습이 가능합니다.
최적화된 성능: 다양한 AI 작업에 최적화된 성능을 제공하므로 AI를 구축하고 확장하려는 기업 고객과 개발자에게 적합합니다.
다용도성: Gemini Pro는 Gemini Ultra만큼 크지는 않지만 다른 모델과 비슷한 성능을 발휘하며 더 효율적으로 서비스를 제공합니다.
Gemini Nano는 기기 내에서 작업을 수행할 수 있도록 효율적으로 설계된 가장 작은 모델입니다.
온디바이스 작업을 위한 효율성: Nano 모델은 효율성과 속도를 우선시하여 온디바이스 배포용으로 설계되었습니다.
작지만 강한 성능: 나노 모델은 작은 크기에도 불구하고 요약 및 독해와 같은 작업에서 인상적인 성능을 보여줍니다.
접근성: 다양한 플랫폼과 디바이스에서 작동할 수 있는 기능을 갖춘 Gemini Nano 모델은 고급 AI 기능에 대한 접근성을 높여줍니다.
Gemini AI는 구글의 AI 기술 발전의 새로운 지평을 여는 모델입니다. 텍스트부터 멀티모달에 이르기까지 광범위한 분야에서의 뛰어난 성능과 함께, 복잡한 정보를 효과적으로 이해하고 처리하는 능력을 가지고 있어 인공지능의 미래를 밝게 하고 있습니다. AI를 사용하는 모든 이들에게 높은 가치를 제공할 것으로 기대됩니다.

출시 계획

Gemini Pro
Google 제품을 통해 전 세계 수십억 명의 사람들에게 Gemini를 제공합니다.

Bard는 오늘부터 Gemini Pro의 정교한 버전을 사용하여 더 발전된 추론, 계획, 이해 등을 제공합니다. 이는 Bard가 출시된 이후 가장 큰 업그레이드입니다.
170개국 이상의 국가와 지역에서 영어로 사용 가능하며, 곧 다양한 모달리티와 새로운 언어 및 지역 지원으로 확장할 예정입니다.

Gemini Nano
스마트폰에서 구동 가능한 Gemini

Pixel 8 Pro는 Gemini Nano를 실행할 수 있도록 설계된 최초의 스마트폰으로, Recorder 앱의 '요약' 기능 및 WhatsApp을 시작으로 Gboard의 '스마트 답변'에 새로운 기능을 제공하고 있으며
내년에 더 많은 메시징 앱으로 확장할 계획입니다.

추가 제품 및 서비스

향후 몇 달 내로 검색, 광고, 크롬, 듀엣 AI와 같은 Google의 더 많은 제품과 서비스에서 Gemini를 사용할 수 있게 됩니다. 이미 Gemini를 검색에 실험적으로 도입하여, 미국 내 영어 검색의 대기 시간을 40% 줄이고 품질을 향상시키는 등의 성과를 거두고 있습니다.

개발자 및 기업용 액세스

2023년 12월 13일부터 개발자와 기업 고객은 Google AI 스튜디오 또는 Google Cloud Vertex AI에서 Gemini Pro에 접근할 수 있습니다. Google AI 스튜디오는 웹 기반의 무료 개발 도구로, API 키를 사용하여 빠르게 앱을 프로토타입하고 출시할 수 있도록 지원합니다. Vertex AI는 완전 관리형 AI 플랫폼으로, Gemini를 사용자 데이터 제어 및 Google Cloud의 추가 기능을 통해 사용자화할 수 있습니다.

안드로이드 개발자

안드로이드 개발자들은 안드로이드 14에서 사용 가능한 AICore라는 새로운 시스템 기능을 통해, 기기 내 작업에 가장 효율적인 Gemini Nano를 사용하여 빌드할 수 있게 됩니다.
아래 영상을 통해 Gemin 전체 키노트를 확인하실 수 있습니다. 2024년은 더 큰 지각 변동이 올 것 같습니다.
Subscribe to 'haebom'
Subscribe to my site to be the first to receive notifications and emails about the latest updates, including new posts.
Join Slashpage and subscribe to 'haebom'!
Subscribe
2
Haebom
AlphaCode2_Tech_Report.pdf650.85KB
See latest comments