Google, GPT-4를 능가하는 모델 Gemini 발표
Haebom
Gemini는 지금 부터 바로 Bard에 적용 되었습니다. AI 기술은 인간의 삶을 혁신하는 중요한 변곡점이 되었습니다. 구글의 Gemini AI는 이러한 변화를 선도하는 최신 기술 중 하나로서, 텍스트, 이미지, 오디오, 비디오 등 다양한 정보 유형을 이해하고 처리할 수 있는 멀티모달 AI 모델입니다.
Gemini는 테크 리포트를 통해 현존하는 가장 강력한 파운데이션 모델인 GPT-4의 성능을 능가한다고 하였으며 텍스트 생성 뿐 아니라 멀티모달 인식 및 처리에도 앞선 성능을 보여준다는 실험 경과를 공개했습니다. 또한 하나의 모델이 아닌 크기에 따른 Gemini Ultra, Gemini Pro, Gemini Nano 세가지 모델을 출시하였으며 공개적으로 Nano의 파라미터 수를 공개했는데 그 크기가 Nano-1의 경우 1.8B, Nano-2의 경우 3.25B입니다. 진정한 sLM이라 할 수 있을 것 같네요.
성능에 대한 자신감
텍스트 처리 능력
Gemini Ultra는 57개 주제를 아우르는 MMLU 벤치마크에서 90.0%의 성능을 보여, 인간 전문가를 초과하는 능력을 보였습니다.
같은 테스트에서 OpenAI의 GPT-4는 86.4%로 Gemini Ultra에 비해 다소 낮은 성능을 보였으며, 복잡한 수학적 추론에 관한 Big-Bench Hard에서도 Gemini Ultra가 83.6%로 GPT-4의 83.1%를 앞질렀습니다.
멀티모달 처리 능력
이미지 이해에서 Gemini Ultra는 77.8% GPT-4V의 77.2%보다 약간 높은 성능을 나타냈습니다.
문서 이해 분야에서도 Gemini Ultra가 90.9% GPT-4V의 88.4%를 능가했습니다.
주목할 점
멀티모달 이해: Gemini AI는 멀티모달 이해 능력에서 현재의 SOTA(State of the Art) 모델을 뛰어넘었습니다. OCR 시스템의 도움 없이도 이미지에서의 문제를 이해하고 해결하는 능력을 보여줍니다.
코드 생성: Python과 같은 인기 있는 프로그래밍 언어에서 고품질 코드를 생성할 수 있습니다. 이는 개발자들이 더 빠르고 효율적으로 앱을 출시하고 서비스를 개선할 수 있도록 돕습니다.
모델 규모별 특징
Gemini Ultra는 가장 큰 모델로서 복잡한 작업을 처리할 수 있는 가장 강력한 성능을 제공합니다.
매우 복잡한 작업: Gemini Ultra는 매우 복잡한 작업을 처리하도록 설계되었으며, 이 영역에서 탁월한 성능을 발휘합니다. 여러 주요 벤치마크에서 최첨단 성능을 달성합니다.
멀티모달 이해: 멀티모달 모델인 Gemini Ultra는 텍스트, 이미지, 오디오, 비디오 등 다양한 유형의 데이터를 이해하고 추론하는 데 있어 강력한 성능을 발휘합니다.
대규모 및 효율성: 대규모의 TPUv4 가속기를 사용하여 학습되며 대규모의 효율적인 운영에 최적화되어 있습니다.
최첨단 성능: Gemini Ultra는 MMLU 벤치마크에서 90.04%라는 놀라운 정확도를 달성했으며 수학 및 코딩과 같은 다른 영역에서도 강력한 성능을 보여줍니다.
Gemini Pro는 다양한 범위의 작업에 걸쳐 효율적으로 확장될 수 있는 모델입니다.
다양한 작업에서 확장 가능: Gemini Pro는 다양한 작업에 걸쳐 확장하는 데 가장 적합합니다. 인프라 및 학습 알고리즘을 통해 Gemini Ultra보다 적은 리소스를 활용하여 신속한 사전 학습이 가능합니다.
최적화된 성능: 다양한 AI 작업에 최적화된 성능을 제공하므로 AI를 구축하고 확장하려는 기업 고객과 개발자에게 적합합니다.
다용도성: Gemini Pro는 Gemini Ultra만큼 크지는 않지만 다른 모델과 비슷한 성능을 발휘하며 더 효율적으로 서비스를 제공합니다.
Gemini Nano는 기기 내에서 작업을 수행할 수 있도록 효율적으로 설계된 가장 작은 모델입니다.
온디바이스 작업을 위한 효율성: Nano 모델은 효율성과 속도를 우선시하여 온디바이스 배포용으로 설계되었습니다.
작지만 강한 성능: 나노 모델은 작은 크기에도 불구하고 요약 및 독해와 같은 작업에서 인상적인 성능을 보여줍니다.
접근성: 다양한 플랫폼과 디바이스에서 작동할 수 있는 기능을 갖춘 Gemini Nano 모델은 고급 AI 기능에 대한 접근성을 높여줍니다.
Gemini AI는 구글의 AI 기술 발전의 새로운 지평을 여는 모델입니다. 텍스트부터 멀티모달에 이르기까지 광범위한 분야에서의 뛰어난 성능과 함께, 복잡한 정보를 효과적으로 이해하고 처리하는 능력을 가지고 있어 인공지능의 미래를 밝게 하고 있습니다. AI를 사용하는 모든 이들에게 높은 가치를 제공할 것으로 기대됩니다.
출시 계획
Gemini Pro
Google 제품을 통해 전 세계 수십억 명의 사람들에게 Gemini를 제공합니다.
Bard는 오늘부터 Gemini Pro의 정교한 버전을 사용하여 더 발전된 추론, 계획, 이해 등을 제공합니다. 이는 Bard가 출시된 이후 가장 큰 업그레이드입니다.
170개국 이상의 국가와 지역에서 영어로 사용 가능하며, 곧 다양한 모달리티와 새로운 언어 및 지역 지원으로 확장할 예정입니다.
Gemini Nano
스마트폰에서 구동 가능한 Gemini
Pixel 8 Pro는 Gemini Nano를 실행할 수 있도록 설계된 최초의 스마트폰으로, Recorder 앱의 '요약' 기능 및 WhatsApp을 시작으로 Gboard의 '스마트 답변'에 새로운 기능을 제공하고 있으며
내년에 더 많은 메시징 앱으로 확장할 계획입니다.
추가 제품 및 서비스
향후 몇 달 내로 검색, 광고, 크롬, 듀엣 AI와 같은 Google의 더 많은 제품과 서비스에서 Gemini를 사용할 수 있게 됩니다. 이미 Gemini를 검색에 실험적으로 도입하여, 미국 내 영어 검색의 대기 시간을 40% 줄이고 품질을 향상시키는 등의 성과를 거두고 있습니다.
개발자 및 기업용 액세스
2023년 12월 13일부터 개발자와 기업 고객은 Google AI 스튜디오 또는 Google Cloud Vertex AI에서 Gemini Pro에 접근할 수 있습니다. Google AI 스튜디오는 웹 기반의 무료 개발 도구로, API 키를 사용하여 빠르게 앱을 프로토타입하고 출시할 수 있도록 지원합니다. Vertex AI는 완전 관리형 AI 플랫폼으로, Gemini를 사용자 데이터 제어 및 Google Cloud의 추가 기능을 통해 사용자화할 수 있습니다.
안드로이드 개발자
안드로이드 개발자들은 안드로이드 14에서 사용 가능한 AICore라는 새로운 시스템 기능을 통해, 기기 내 작업에 가장 효율적인 Gemini Nano를 사용하여 빌드할 수 있게 됩니다.
아래 영상을 통해 Gemin 전체 키노트를 확인하실 수 있습니다. 2024년은 더 큰 지각 변동이 올 것 같습니다.
2
👍👀🍭
18
/haebom
Subscribe
조직의 크기가 팀의 성과로 이어지진 않습니다.
한 때, 실리콘벨리에선 팀을 키우는 것이 주요한 가치로 이야기 되던 때가 있었습니다. 당시 대형 기술 기업들이 조직 성장을 촉진하기 위해 경영진에게 팀 확장을 장려하는 인센티브를 제공하는 방식을 취했습니다. 특히 아마존(Amazon), 페이스북(Facebook), 구글(Google)과 같은 빠르게 성장하는 회사들이 좋은 예시 입니다. 당시 기사들을 보면 유래없는 속도로 팀을 늘리는 것에서 'Big tech'라는 용어와 하나의 Tech기업이 도시의 인구 만큼의 근로자를 데리고 있다고 주목하는 기사들이 있습니다. 이러한 풍조는 국내에서도 이어져 투자를 받은 스타트업이 급하게 팀을 늘리다 일의 규모와 팀의 규모가 맞지 않아 큰 위기를 초례하는 사례를 몇가지 보였습니다. 조직 성장에 대한 인센티브: 빠르게 성장하는 기업에서는 관리자들이 자신의 팀 규모를 확장함으로써 승진과 보상을 받을 가능성이 높아집니다. 팀의 크기가 커지는 것이 승진으로 이어지는 가장 쉬운 방법 중 하나로 여겨졌었습니다. 관리자 승진의 현실: 많은 경우, 관리자의 승진은 팀의 성과나 프로젝트의 성공보다는 팀 규모의 확장에 더 크게 의존합니다. 즉, 관리자는 프로젝트의 성공적인 완료보다는 팀 규모를 늘리는 데 더 많은 관심을 기울일 수 있습니다. 기술 회사의 영향: 이러한 문제는 특히 대형 기술 회사에서 두드러지며, 이러한 중간 관리자 입장에선 자신들이 회사에서 갖는 영향력과 리소스 때문에 관리자들이 팀을 확장하는 데 더욱 적극적일 수 있습니다. 하지만 발생한 부작용 프로젝트 및 팀 성장의 영향: 이러한 인센티브 구조는 관리자들이 팀의 규모를 늘리기 위해 새로운 프로젝트를 제안하거나 지원할 가능성을 높입니다. 이는 기업 내에서 과도한 팀 확장, 비효율적인 프로젝트, 또는 필요하지 않은 프로젝트에 자원이 투입되는 결과를 초래할 수 있습니다. 팀 크기 중심의 승진 모델의 문제점: 이 모델은 팀의 성과나 프로젝트의 성공보다는 단순히 팀의 크기에 중점을 두어, 실제로 조직에 기여하는 것보다는 조직의 규모를 확장하는 데 더 많은 관심을 가지게 합니다. 조직의 비효율성과 과도한 팀 확장의 속도와 비례 합니다. 팀원을 늘리는 것은 그만큼의 복잡성을 추가하는 일이고 이 방법은 무조건 팀의 생산성과 성과와 비례하지 않습니다.
Facebook, Instagram에서 인공지능을 사용하는 방법
페이스북과 인스타그램, 왓츠앱 등을 보유한 메타가 자체 인공지능 기술을 자사 제품들에 실험적으로 도입하고 있다고 공식적으로 밝혔습니다. 제공하는 기능은 AI 생성된 게시물 댓글 제안, 커뮤니티 채팅 주제 제안, 검색 결과 제공, 쇼핑의 제품 설명 개선 등에 사용됩니다. 또한, 창의적인 취미를 가진 사람들을 위한 새로운 독립 실행형 경험인 'imagine with Meta AI'를 구동하고 있습니다. 이는 미드저니 등에서 사용되는 방식으로 특정 명령어를 입력하면 채팅창에서도 쉽게 이미지 생성/개선 등을 도와주는 방식으로 작동 됩니다. 또한 AI 채팅의 경우 항후 출시될 AI Friends의 맛보기로 보여지는데요. @metaai 이후 대화를 시작하면 메타가 제공하는 인공지능 비서와 이야기를 나눌수 있게 한다고 합니다. 개인적으로 인상 깊었던 것은 생일 축하 메세지, 혹은 커뮤니티 글 혹은 무슨 말을 해야할지 몰랐을 때 단문 메세지들을 대신 생성하주는 것과 Firefly 처럼 Outpainting이나 Upscaling이 가능한 이미지 편집툴을 이제 페이스북 인스타그램에서 손쉽게 사용 가능하다는 점이였습니다. 이 기능들은 순차적으로 Meta 유저들에게 적용되고 있으며 내년에는 더욱 강력한 추가 기능들을 적용할 예정이라고 합니다.
Meta, 텍스트를 소리로 바꿔주는 AudioBox 공개
Audiobox는 Meta가 새롭게 선보인 오디오 생성을 위한 연구 기반 모델입니다. 이 모델은 음성 입력과 자연어 텍스트 프롬프트의 조합을 사용하여 목소리와 사운드 이펙트를 생성할 수 있으며, 다양한 용도로 맞춤형 오디오를 쉽게 생성할 수 있게 해줍니다. Audiobox는 자연어 프롬프트를 사용하여 생성하고자 하는 사운드 또는 음성 유형을 설명하게 하며, 사용자는 음성 입력과 텍스트 스타일 프롬프트를 결합하여 어떤 환경(예: "대성당 안에서")이나 감정(예: "슬프고 느리게 말한다")에서도 그 목소리로 음성을 합성할 수 있습니다. Audiobox는 자유 형식의 음성 스타일 변경을 위해 음성 프롬프트와 텍스트 설명 프롬프트의 이중 입력을 가능하게 하는 최초의 모델로 알려져 있습니다. 논문 요약 모델링 방식 Voicebox는 비자기 회귀(non-autoregressive, NAR) 연속 정규화 흐름(continuous normalizing flow, CNF) 모델입니다. 이 모델은 간단한 분포에서 복잡한 데이터 분포로의 변환을 신경망을 통해 모델링합니다. 이를 통해 Voicebox는 과거뿐만 아니라 미래의 맥락도 사용할 수 있으며, 추론 시간에 흐름 단계의 수를 조절하여 품질과 실행 시간 사이의 균형을 맞출 수 있습니다. 훈련 데이터 Voicebox는 60K 시간의 영어 오디오북과 6개 언어로 된 50K 시간의 다국어 오디오북을 사용하여 훈련되었습니다. 이는 모노리즈링 및 크로스리즈링 제로샷 텍스트-음성 합성, 음성 노이즈 제거, 음성 편집, 다양한 음성 샘플링, 음성 인식 데이터 생성 등 여러 분야에서 최신 기술(State of the Art, SOTA) 성능을 달성합니다. 기여 및 성과: Voicebox는 대규모 데이터를 사용한 텍스트 가이드 음성 채우기 작업을 통해 학습되었으며, 명시적으로 훈련되지 않은 작업도 수행할 수 있습니다. VALL-E 모델을 능가하며, 새로운 SOTA 영어 제로샷 TTS 결과를 달성했습니다(단어 오류율에서 5.9%에서 1.9%로 개선). Voicebox는 첫 번째로 6개 언어에서 고품질 크로스리즈링 제로샷 TTS를 수행할 수 있는 모델입니다. 이전 크로스리즈링 SOTA 모델인 YourTTS와 비교하여 평균 WER을 10.9%에서 5.2%로 줄이고, 오디오 유사성을 0.335에서 0.481로 향상시켰습니다. Voicebox는 모든 길이의 음성을 채울 수 있으며, 텍스트 가이드 노이즈 제거에서 이전 SOTA 모델 A3T를 능가합니다. 다양하고 사실적인 음성을 생성할 수 있으며, Voicebox로 생성된 합성 음성만으로 훈련된 ASR 시스템은 실제 데이터로 훈련된 경우와 비교하여 Librispeech 테스트에서 단 0.4%/1.7%의 WER 증가만을 보입니다. 주요 기능 다양한 음성 및 비음성 사운드 이펙트와 사운드스케이프 생성 자연어 프롬프트를 사용하여 원하는 사운드 또는 음성 유형 설명 오디오 음성 입력과 텍스트 스타일 프롬프트의 결합을 통한 맞춤형 음성 합성 음성과 사운드 이펙트 생성에서의 최첨단 제어 가능성 오디오 인필링을 통한 사운드 이펙트 개선 및 사운드 편집 기능 용어 및 기능 정리 기능 설명 오디오 생성 음성 입력과 자연어 텍스트 프롬프트의 조합을 통해 사운드 이펙트와 목소리 생성 사운드스케이프 생성 "강이 흐르는 소리와 새들이 지저귀는 소리"와 같은 텍스트 프롬프트를 통한 사운드스케이프 생성 음성 합성 특정 환경이나 감정을 반영한 음성 스타일의 합성 제어 가능성 사용자가 원하는 대로 음성과 사운드 이펙트의 스타일을 지정할 수 있는 강력한 제어 기능 사운드 편집 오디오 인필링을 통해 오디오 세그먼트를 자르고 재생성, 예를 들어 "개 짖는 소리" 같은 사운드 이펙트 추가 Meta는 안전하고 책임 있는 연구를 수행하기 위해 연구자와 학술 기관을 대상으로 Audiobox 사용을 위한 그랜트 신청을 곧 받을 예정입니다. 또한, 오디오 워터마킹과 보이스 인증 기능을 통해 음성 모방이나 기타 남용에 대한 우려를 해소하기 위한 기술을 도입하였습니다. 향후, Audiobox와 같은 연구 혁신이 오디오 생성의 접근성 장벽을 낮추고 누구나 오디오 콘텐츠 제작자가 될 수 있도록 도울 것으로 기대하고 있습니다.