해봄의 아카이브

Google, GPT-4를 능가하는 모델 Gemini 발표

Haebom

Dec 7, 20233y ago

Gemini는 지금 부터 바로 Bard에 적용 되었습니다. AI 기술은 인간의 삶을 혁신하는 중요한 변곡점이 되었습니다. 구글의 Gemini AI는 이러한 변화를 선도하는 최신 기술 중 하나로서, 텍스트, 이미지, 오디오, 비디오 등 다양한 정보 유형을 이해하고 처리할 수 있는 멀티모달 AI 모델입니다.

Hands-on with Gemini: Interacting with multimodal AI

Gemini is our natively multimodal AI model capable of reasoning across text, images, audio, video and code. This video highlights some of our favorite interactions with Gemini. Learn more and try the model: https://deepmind.google/gemini Explore our prompting approaches here: https://goo.gle/how-its-made-gemini For the purposes of this demo, latency has been reduced and Gemini outputs have been shortened for brevity. Subscribe to our Channel: https://www.youtube.com/google Tweet with us on Twitter: https://twitter.com/google Follow us on Instagram: https://www.instagram.com/google Join us on Facebook: https://www.facebook.com/Google 0:00 Intro 0:19 Multimodal Dialogue 1:32 Multilinguality 2:04 Game Creation 2:31 Visual Puzzles 3:17 Making Connections 3:39 Image & Text Generation 4:06 Logic & Spatial Reasoning 4:55 Translating Visuals 5:27 Cultural Understanding

youtu.be

Gemini는 테크 리포트를 통해 현존하는 가장 강력한 파운데이션 모델인 GPT-4의 성능을 능가한다고 하였으며 텍스트 생성 뿐 아니라 멀티모달 인식 및 처리에도 앞선 성능을 보여준다는 실험 경과를 공개했습니다. 또한 하나의 모델이 아닌 크기에 따른 Gemini Ultra, Gemini Pro, Gemini Nano 세가지 모델을 출시하였으며 공개적으로 Nano의 파라미터 수를 공개했는데 그 크기가 Nano-1의 경우 1.8B, Nano-2의 경우 3.25B입니다. 진정한 sLM이라 할 수 있을 것 같네요.

Gemini_tech_report_Resized.pdf1.66MB

Gemini: Explaining reasoning in math and physics

Introducing Gemini — Google’s newest and most capable AI model. Gemini was trained to recognize and understand text, images, audio, and more at the same time, so it better understands nuanced information and can answer questions relating to complicated topics. This makes it especially good at explaining reasoning in complex subjects like math and physics. Join Google Interaction Designer Sam Cheung as she uses Gemini’s multimodal capabilities and sophisticated reasoning to check a handwritten homework sheet. Watch Gemini create customised explanations and practice questions to help test and expand her knowledge of physics. Check out more Gemini demos: https://goo.gle/4164rNO Find out more about Gemini: https://deepmind.google/gemini Read the blog post: https://goo.gle/3uRyug7 Subscribe to our Channel: https://www.youtube.com/google Tweet with us on Twitter: https://twitter.com/google Follow us on Instagram: https://www.instagram.com/google Join us on Facebook: https://www.facebook.com/Google

youtu.be

성능에 대한 자신감

텍스트 처리 능력

•

Gemini Ultra는 57개 주제를 아우르는 MMLU 벤치마크에서 90.0%의 성능을 보여, 인간 전문가를 초과하는 능력을 보였습니다.

•

같은 테스트에서 OpenAI의 GPT-4는 86.4%로 Gemini Ultra에 비해 다소 낮은 성능을 보였으며, 복잡한 수학적 추론에 관한 Big-Bench Hard에서도 Gemini Ultra가 83.6%로 GPT-4의 83.1%를 앞질렀습니다.

멀티모달 처리 능력

•

이미지 이해에서 Gemini Ultra는 77.8%로 GPT-4V의 77.2%보다 약간 높은 성능을 나타냈습니다.

•

문서 이해 분야에서도 Gemini Ultra가 90.9%로 GPT-4V의 88.4%를 능가했습니다.

주목할 점

•

멀티모달 이해: Gemini AI는 멀티모달 이해 능력에서 현재의 SOTA(State of the Art) 모델을 뛰어넘었습니다. OCR 시스템의 도움 없이도 이미지에서의 문제를 이해하고 해결하는 능력을 보여줍니다.

•

코드 생성: Python과 같은 인기 있는 프로그래밍 언어에서 고품질 코드를 생성할 수 있습니다. 이는 개발자들이 더 빠르고 효율적으로 앱을 출시하고 서비스를 개선할 수 있도록 돕습니다.

Gemini: Unlocking insights in scientific literature

Introducing Gemini — Google’s newest and most capable AI model. Watch Google DeepMind Research Scientist Sebastian Nowozin and Software Engineer Taylor Applebaum use Gemini to read, understand and filter 200,000 scientific papers to extract crucial scientific information. All in a lunch break. Check out more Gemini demos: https://goo.gle/4164rNO Find out more about Gemini: https://deepmind.google/gemini Read the blog post: https://goo.gle/3uRyug7 Subscribe to our Channel: https://www.youtube.com/google Tweet with us on Twitter: https://twitter.com/google Follow us on Instagram: https://www.instagram.com/google Join us on Facebook: https://www.facebook.com/Google

youtu.be

모델 규모별 특징

•

Gemini Ultra는 가장 큰 모델로서 복잡한 작업을 처리할 수 있는 가장 강력한 성능을 제공합니다.

◦

매우 복잡한 작업: Gemini Ultra는 매우 복잡한 작업을 처리하도록 설계되었으며, 이 영역에서 탁월한 성능을 발휘합니다. 여러 주요 벤치마크에서 최첨단 성능을 달성합니다.

◦

멀티모달 이해: 멀티모달 모델인 Gemini Ultra는 텍스트, 이미지, 오디오, 비디오 등 다양한 유형의 데이터를 이해하고 추론하는 데 있어 강력한 성능을 발휘합니다.

◦

대규모 및 효율성: 대규모의 TPUv4 가속기를 사용하여 학습되며 대규모의 효율적인 운영에 최적화되어 있습니다.

◦

최첨단 성능: Gemini Ultra는 MMLU 벤치마크에서 90.04%라는 놀라운 정확도를 달성했으며 수학 및 코딩과 같은 다른 영역에서도 강력한 성능을 보여줍니다.

•

Gemini Pro는 다양한 범위의 작업에 걸쳐 효율적으로 확장될 수 있는 모델입니다.

◦

다양한 작업에서 확장 가능: Gemini Pro는 다양한 작업에 걸쳐 확장하는 데 가장 적합합니다. 인프라 및 학습 알고리즘을 통해 Gemini Ultra보다 적은 리소스를 활용하여 신속한 사전 학습이 가능합니다.

◦

최적화된 성능: 다양한 AI 작업에 최적화된 성능을 제공하므로 AI를 구축하고 확장하려는 기업 고객과 개발자에게 적합합니다.

◦

다용도성: Gemini Pro는 Gemini Ultra만큼 크지는 않지만 다른 모델과 비슷한 성능을 발휘하며 더 효율적으로 서비스를 제공합니다.

•

Gemini Nano는 기기 내에서 작업을 수행할 수 있도록 효율적으로 설계된 가장 작은 모델입니다.

◦

온디바이스 작업을 위한 효율성: Nano 모델은 효율성과 속도를 우선시하여 온디바이스 배포용으로 설계되었습니다.

◦

작지만 강한 성능: 나노 모델은 작은 크기에도 불구하고 요약 및 독해와 같은 작업에서 인상적인 성능을 보여줍니다.

◦

접근성: 다양한 플랫폼과 디바이스에서 작동할 수 있는 기능을 갖춘 Gemini Nano 모델은 고급 AI 기능에 대한 접근성을 높여줍니다.

Gemini AI는 구글의 AI 기술 발전의 새로운 지평을 여는 모델입니다. 텍스트부터 멀티모달에 이르기까지 광범위한 분야에서의 뛰어난 성능과 함께, 복잡한 정보를 효과적으로 이해하고 처리하는 능력을 가지고 있어 인공지능의 미래를 밝게 하고 있습니다. AI를 사용하는 모든 이들에게 높은 가치를 제공할 것으로 기대됩니다.

출시 계획

Gemini Pro
Google 제품을 통해 전 세계 수십억 명의 사람들에게 Gemini를 제공합니다.

•

Bard는 오늘부터 Gemini Pro의 정교한 버전을 사용하여 더 발전된 추론, 계획, 이해 등을 제공합니다. 이는 Bard가 출시된 이후 가장 큰 업그레이드입니다.

•

170개국 이상의 국가와 지역에서 영어로 사용 가능하며, 곧 다양한 모달리티와 새로운 언어 및 지역 지원으로 확장할 예정입니다.

Gemini Nano
스마트폰에서 구동 가능한 Gemini

•

Pixel 8 Pro는 Gemini Nano를 실행할 수 있도록 설계된 최초의 스마트폰으로, Recorder 앱의 '요약' 기능 및 WhatsApp을 시작으로 Gboard의 '스마트 답변'에 새로운 기능을 제공하고 있으며

•

내년에 더 많은 메시징 앱으로 확장할 계획입니다.

추가 제품 및 서비스

향후 몇 달 내로 검색, 광고, 크롬, 듀엣 AI와 같은 Google의 더 많은 제품과 서비스에서 Gemini를 사용할 수 있게 됩니다. 이미 Gemini를 검색에 실험적으로 도입하여, 미국 내 영어 검색의 대기 시간을 40% 줄이고 품질을 향상시키는 등의 성과를 거두고 있습니다.

개발자 및 기업용 액세스

2023년 12월 13일부터 개발자와 기업 고객은 Google AI 스튜디오 또는 Google Cloud Vertex AI에서 Gemini Pro에 접근할 수 있습니다. Google AI 스튜디오는 웹 기반의 무료 개발 도구로, API 키를 사용하여 빠르게 앱을 프로토타입하고 출시할 수 있도록 지원합니다. Vertex AI는 완전 관리형 AI 플랫폼으로, Gemini를 사용자 데이터 제어 및 Google Cloud의 추가 기능을 통해 사용자화할 수 있습니다.