Share
Sign In
1️⃣

AI를 여행하는 히치하이커를 위한 가이드

1부. 당황하지 마세요, 히치하이커

🇺🇸 EN / 🇰🇷 KR / 2024.05.29

AI 덕분에, 정말 바빠진 지구별

GPT-4o, Google I/O, MS Copilot+PC 발표로 지구별 인류는 이번 달에도 바쁜 스케줄을 보내고 있습니다 (May, 2024). 생성형 AI 덕분에 노래도 만들고, AI와 목소리로 대화도 하며, 이미지에 비디오까지 쉽게 만들어내는 세상이 도래했습니다. 이 흥미진진한 세상이 어디로 향하는지 함께 살펴보겠습니다.

AI를 여행하는 히치하이커들에게

살다 보니, 2023년에도 살았고, 2024년에도 살고 있고, 그래서 AI도 만났습니다. AI가 인생의 연구 대상은 아니었지만, 재미있게 대화하고 신명나게 연구하고 있습니다. 예상치 못한 시나리오인 만큼, 우연히 지나가는 AI라는 우주선을 잡아타고, '이것은 마치 히치하이킹' 같은 느낌이죠.
이런 우리에게 어떤 이름을 붙여야 할까 생각하다, 우연히 AI를 만나 여행을 시작했으니, '은하수를 여행하는 히치하이커를 위한 안내서(The Hitchhiker's Guide to the Galaxy, 2005)' 의 스토리가 잘 어울리겠다 싶었습니다.

멀티모달과 옴니 AI

작년과 달리, 2024년의 메이저 AI 서비스는 대부분 멀티모달(Multimodal)과 옴니(Omni)를 지향하고 있습니다. 멀티모달은 AI가 텍스트, 이미지, 소리, 영상 등 여러 형태의 데이터를 동시에 처리할 수 있다는 의미이고, 옴니는 그러한 모든 유형의 데이터를 단일 플랫폼에서 통합적으로 다루며, 동시에 다양한 형태로 피드백한다는 GPT-4o의 제안입니다.
이제 AI가 텍스트에 답변하는 것은 기본 소양이 되었고, 이미지, 사운드, 비디오, 프로그래밍 코드, 데이터 분석, 그리고 요청하면 무엇이든 실시간으로 분석되어 다양한 형태로 피드백 받을 수 있게 되었습니다.
심지어 말로 요청해도 되지요(GPT-4o 음성 인터페이스, VoiceMode).
이러한 변화는 기존에 없던 방식이라 우리 히치하이커들은 매우 당황하게 됩니다. 키보드와 마우스만 사용하던 이주민들은, 이 새로운 공간에서 목소리는 어떻게 내어야 할지 조금 막막하죠. 마이크가 켜져 있어도, 도대체 마이크는 언제 켜면 되나 싶은 거에요.
바로 이러한 시기에 오늘 AI 기본기부터 다져보려 합니다. 텍스트, 이미지, 사운드, 비디오라는 서로 다른 언어 사이에 데이터 전환이 어떻게 되는지 살펴보겠습니다.

AI를 여행하는 히치하이커를 위한 가이드

생성형 AI에는 다양한 데이터 유형이 있습니다. 아마 '네이티브 AI 세대'라면 아래의 번잡한 구분 없이도 이미 자연스럽게 활용하고 있을 거에요. 하지만 아날로그나 디지털에 더 익숙한 '히치하이커 세대'라면, 조금은 의식적으로 익숙해지셔도 좋을 것 같아요.
여기에 멀티모달 이해를 위한, 첫 번째 가이드를 준비했어요.
히치하이커 가이드 1 : AI 멀티모달 변환 목록
AI Multimodal Transformation List
Image
1
텍스트-투-이미지
T2I
Text-to-Image
텍스트 프롬프트를 바탕으로 이미지를 생성합니다.
(예: 달리3, 미드저니)
2
이미지-투-텍스트
I2T
Image-to-Text
이미지를 분석하여 텍스트 설명을 생성합니다.
(예: 미드저니 /describe 기능)
3
이미지-투-이미지
I2I
Image-to-Image
기존 이미지를 변형하거나 스타일을 적용하여 새로운 이미지를 생성합니다. (예: 스테이블 디퓨전, 미드저니 스타일 레퍼런스)
Video
4
텍스트-투-비디오
T2V
Text-to-Video
텍스트 프롬프트를 바탕으로 비디오를 생성합니다. (예: Gen-2, Pika, Sora, Veo)
5
이미지-투-비디오
I2V
Image-to-Video
이미지를 소스로 활용하여 연속적인 비디오를 생성합니다. (예: Gen-3, Pika, EMO, MS VASA-1)
6
비디오-투-비디오
V2V
Video-to-Video
비디오의 스타일을 변환하거나 자동 편집하여 새로운 비디오를 생성합니다. (예: Hey-Gen, A1111, Domo)
7
비디오-투-텍스트
V2T
Video-to-Text
비디오의 내용을 분석하여 텍스트 설명을 생성합니다.
Sound
8
사운드-투-텍스트
S2T
Sound-to-Text
사운드나 음성을 분석하여 텍스트 설명을 생성합니다. (예: 클로바 노트, ChatGPT 보이스 모드)
9
텍스트-투-사운드
T2S
Text-to-Sound
텍스트 설명을 바탕으로 사운드, 보이스, 음악을 생성합니다. (예: Suno, Udio, ElevenLabs)
경험해 보셨나요? 위의 아홉 가지 AI 기능 중, 어디까지 사용해 보셨나요?
달리3나 미드저니로 이미지를 생성해 보신 분들은 1번, 챗봇에서 이미지 기반 분석을 시도하거나, 미드저니에서 /describe 기능을 사용해 보신 분이라면 2번, 스테이블 디퓨전이나 미드저니 레퍼런스 기능을 사용해 보신 분은 이미지 생성의 최전방인 3번까지 경험해 보셨다고 할 수 있습니다.
비디오 영역으로 넘어가면, Gen-2나 Pika를 사용해 보신 분들은 4번과 5번, 그리고 Hey-Gen, Domo 등으로 비디오의 스타일을 변환해 보신 분은 6번의 초기 단계를 경험하신 겁니다. 7번의 영상 분석 기술은 GPT-4o 등에서 준비되고 있고, 회의 녹음을 클로바 노트로 변환해 보셨다면 8번의 시작, Suno, Udio, ElevenLabs 등으로 나만의 음악이나 목소리를 만들어 보신 9번 경험자분들도 계실 겁니다.
그런데, 이러한 멀티모달 경험은 이제 복합적으로 처리되어, 보다 강력한 시너지 효과를 내는 단계에 진입하고 있어요. GPT-4o는 제공된 데이터에 사용자의 감정과 의도까지 이해하고, 온라인 검색 결과와 결합된 실시간 분석을 제공하겠다고 하지요. 사실상 우리는 앞의 가이드 기술에 익숙해지기도 전에, 다음 단계의 기술을 경험하게 될 거에요.
그러니 모든 요소를 하나하나 이해하지 않아도 되고, 개별 기술을 다 경험할 필요가 없다는 생각도 듭니다. 모든 기술은 점점 더 편리해지고, 경계를 의식하지 않아도 될 만큼 쉬워지고 있습니다.
하지만 변화는 인지하는 게 좋은 것 같아요.

경계가 무색해졌다

사실 이 글은 서로 다른 형태의 데이터가 전환되는 멀티모달 프로세스를 'AI 도구'로 담아내려는, 심플한 몇 편의 기획으로 시작했습니다. 히치하이커들의 멀티모달 AI 사용 경험을 높이기 위해서 말입니다.
하지만 글을 쓰다 보니, 이 가이드도 조금은 과거의 것이 되어가고 있음을 알게 되었습니다. 그 경계를 의식하지 않아도 되는 단계로 나아가고 있네요.
우리는 컴퓨터에 고유한 폴더 네임을 준비하고, 그 안에 전혀 호환되지 못하는 JPG 이미지 파일과 HWP 한글 파일과 PPT 프리젠테이션 파일을 따로 보관해 왔어요. 그리고 파일의 확장자는 우리가 처음에 저장했던 어딘가에 그대로 남아 있었습니다.
하지만 MS Copilot+PC 는 앞으로 우리가 컴퓨터에서 사용한 모든 기록을 바로 호출(Recall)해 주고, GPT-4o는 서로 다른 형태의 데이터를 아주 손쉽게 전환해 준다고 예고하고 있습니다. 어느 정도는 정리 할 필요도, 데이터의 형식은 전혀 신경 쓰지 않아도 될지 모릅니다.

어떻게 진화하고 있나

‘이미지 생성 AI’를 예로 들어보죠.
여러분이 익숙하신 프롬프트로 이미지를 생성하는 텍스트-투-이미지(T2I)의 기술은, 이미 다음 단계에 도달해 있습니다. 처음에는 복잡한 프롬프트를 직접 입력해서 이미지를 생성해야 했지만, 지난해부터 ChatGPT에게 프롬프트 도움을 받기 시작했고, 스테이블 디퓨전 XL 터보로 실시간 이미지 생성(RT2I)이 되고, 미드저니에서 이미지와 캐릭터 레퍼런스를 이용하고, 핸드 드로잉을 반영해 실시간으로 이미지를 생성하는 Real-time 이미지-투-이미지(RI2I) 단계의 초기에 도달해 있었죠.
그런데 GPT-4o는 Vision 기능을 통해 카메라에 들어오는 현실의 모든 비주얼을 분석하고, 사용자의 표정과 목소리를 통해 감정을 포함한 의도의 멀티 프롬프트를 받아들여, 데이터든 이미지든 비디오든 사운드든 원하는 대로 생성한다고 말하고 있어요.
사용자가 상상 속 이미지를 세상에 텍스트와 이미지로 직접 꺼내어 놓는 것뿐만 아니라, AI가 사용자의 표정과 목소리에 담긴 감정과 의도를 파악해서 이미지 생성을 돕게 될 텐데, 그 결과물은 이미지가 아닌 비디오나 음악일 수도 있습니다.
여름이 지나고 Sora와 Veo, 하반기에 Midjourney Video 가 출시되면, 비디오 생성의 방식도 크게 달라질 겁니다.
예술가, 디자이너, 감독과 PD가 주로 예술을 리딩하고 이미지와 영상을 생산하던 시대에서, 이제 선생님과 자영업자, 소비자, 또는 자원봉사자, 누구나 이미지와 사운드와 비디오를 필요에 따라 ‘쉽게 꺼내어 쓰는 시간’이 더 가까워지고 있습니다.

당황하지 마세요, 히치하이커

아마 많은 분들이 GPT-4o의 데모 영상을 보셨을 거에요. 시각 장애인의 눈이 되어주고, 학생에게 수학을 직접 가르치고, 실시간 통역을 해주고, 대화를 나누며 내 숨은 감정을 이해해 주는 모습을요.
여러분들은 어떤 감정을 느끼셨나요? 혹여라도 영화 속 우울한 로봇인 Marvin 과 같은 기분은 아니셨나요.
'은하수를 여행하는 히치하이커를 위한 안내서'에는, 위기 상황마다 대표적인 유머 코드로 "Don't Panic (당황하지 마세요)" 라는 메세지가 곳곳에 연출되곤 합니다. 사실 아무런 대책 없이 말이죠. 또는 어차피 그렇게 될 거라서요.
오늘 제가 준비한 'AI를 여행하는 히치하이커를 위한 가이드'에서도 처음엔 같은 메세지를 전해 드리면 좋을 것 같아요.
"당황하지 마세요. 우리는 적응할 겁니다."
🍀 상상과 아이디어를 시각화하는 AI 비주얼 디렉터, 민트베어
AI를 여행하는 히치하이커를 위한 가이드 : 1️⃣ / 2️⃣ / 3️⃣ / 4️⃣ / 5️⃣ / 6️⃣
© 2024.07 mintbear. All Rights Reserved.