히치하이커 여러분, 안녕하세요. 이번 여름은 어떤 놀라움으로 보내고 계신가요? 최근 이미지 생성 분야는 텍스트가 아닌 이미지 레퍼런스 활용하는 이야기로 아주 뜨겁게 달아오르고 있답니다.
그래서 좋은 레퍼런스를 수집하고 조합하는 크리에이터의 능력이 주목받고 있기도 해요.
AI 여행의 세 번째 장에 도착하신 것을 환영하며, 오늘은 AI와 이미지로 대화하는 방법에 대해 알아보겠습니다.
히치하이커, 이미지 언어를 만나다
텍스트의 한계: T2I, 우리가 마주한 벽
이전 편에서 우리는 텍스트로 이미지를 생성하는 T2I 기술에 대해 살펴보았습니다. 하지만 T2I에는 한계가 있었죠. 복잡한 구도나 세밀한 디테일을 표현하기 어렵고, 우리의 의도를 정확하게 전달하는 일이 쉽지 않았습니다.
'백마 탄 왕자'를 상상하더라도, T2I로 그려낸 왕자님은 우리가 좋아하는 스타일이 아닐 수 있어요. 우리는 조금 까다롭거든요. 너무 뽀얀 피부도, 너무 진한 쌍꺼풀도, 때로는 단추조차 화려하면 조금 부담스럽죠.
간결한 키워드와 효과적인 구조로 이미지 프롬프트를 작성하는 것은 쉬운 일이 아닙니다. 여러분이 꿈속에 만난 환상적인 이야기를 280자 트위터에 담아야 한다면 그것은 미술일까요, 작문일까요? 생각해 보면 T2I는 정말 좋은 도구이지만, 확실히 아이러니한 부분에 닿아 있습니다.
이미지를 만들고 싶어서, 글쓰기를 잘해야 한다니요!
새로운 언어, I2T & I2I
오늘은 이러한 T2I의 한계를 보완할 수 있는 두 가지 기술, I2T(Image-to-Text)와 I2I(Image-to-Image)에 대해 알아보겠습니다. I2T는 AI가 이미지를 우리에게 해석하고 설명해 주는 기술이고, I2I는 이미지를 기반으로 새로운 이미지를 만들어내는 기술입니다.
이 기술들은 우리가 AI와 이미지로 대화하는 새로운 방법을 제시합니다. '텍스트'라는 중간 단계를 거치지 않고 직접 '이미지'로 소통하는 것이죠.
AI의 눈으로 세상 읽기(I2T)
이미지를 '읽는' AI
I2T 기술은 AI에게 ‘눈’을 달아주는 것과 같습니다. 뛰어난 두뇌를 가진 AI가 이제 세상을 보는 눈까지 얻게 되어 모든 이미지를 인식하고, 분석하고, 이해하고, 텍스트로 설명할 수 있게 됩니다. 더 이상 텍스트의 세상에 갇혀 있지 않게 되었어요. 이미지를 읽는 능력 덕분에 이미지 생성하는 일에도 도움을 줄 수 있게 됩니다.
이미지를 읽는 첫 번째 도구, GPT-4o
최근 대부분의 챗봇은 I2T를 아우르는 Vision 기능을 탑재하고 있습니다. 이 기능은 AI가 시각적 정보를 직접적으로 처리하고 분석하여 그와 관련 피드백을 제공해 주는 기술로, 이미 GPT-4o, Claude, Gemini 등에서 모두 사용할 수 있어요. GPT-4o에서는 Vision 기능을 무료 유저도 사용해 볼 수 있죠.
Vision 기능이 과거에는 주로 이미지나 문서에서 '텍스트' 부분을 인식하고 추출해 주는 OCR 기능으로 사랑받았지만, 이제는 이미지 자체를 분석하고 설명하며(I2T), 이미지에서 이미지를 생성하는(I2I) 등 다양한 기능을 제공하고 있습니다. 머지않아 비디오도 분석하게 될 거구요(V2T).
예를 들어, GPT-4o에 이미지를 업로드 하면, 지금 아래와 같은 방식으로 활용할 수 있습니다.
기본 활용법
1.
이미지 인식: 유명 이미지나 라벨링된 이미지를 식별하고 관련 정보를 제공합니다. 예: 반 고흐의 작품, 또는 유명한 장소의 사진을 인식하고 그 배경에 대해 소개해 줍니다.
2.
이미지 분석: 이미지의 종류, 구조, 질감 등 구체적인 요소를 식별하고 분석합니다. 예: 이미지의 종류, 전체적인 구조, 사진 속 인물의 표정, 물체의 질감 등을 상세히 분석합니다.
3.
스타일 파악: 특정 화풍이나 예술가의 스타일을 인식하고 설명합니다. 예: 뱅크시의 스텐실 기법을 활용한 거리 예술 스타일을 식별하거나, 특정 사진작가의 독특한 스타일을 파악합니다.
4.
맥락 이해: 이미지 요소들의 관계와 전체적인 장면을 파악하여 스토리를 역으로 구성합니다. 예: 비 오는 거리, 한 우산 아래 선 두 사람의 모습에서 데이트 중인 커플임을 추론합니다. 두 사람의 가까운 거리와 젖은 보도에 반사된 조명이 로맨틱한 분위기를 만드는 것을 이해합니다.
5.
텍스트 생성: 분석한 정보를 자연스러운 언어로 표현합니다. 예: "이 이미지는 도시 공원에서 책을 읽고 있는 노인과 아이들을 보여줍니다."
6.
프롬프트 제안: 필요시 이미지 생성에 도움이 되는 효과적인 프롬프트를 제공합니다. 예: "Prompt: 도시 공원, 벤치에 앉은 노인과 주변에 모인 아이들, 따뜻한 햇살, 평화로운 분위기, 콘크리트 벽에 뱅크시의 스텐실 기법"
필요에 따라서는 아래처럼 더 복잡한 요청도 가능하죠.
고급 활용법
1.
이미지에서 '희망'을 상징하는 요소나 그것을 유추할 수 있는 스토리를 찾아 주세요.
2.
이미지에서 무드와 감정적 톤을 분석하고, 이를 보다 효과적으로 연출하는 데 도움이 되는 예술 스타일을 제안해 주세요.
3.
이미지에 나타난 패션/건축 스타일을 분석하고, 역사적 배경과 현재 트렌드를 연결하여 설명해 주세요.
4.
첨부된 여러 이미지들의 구도, 색감, 주제를 비교하고, 각 이미지가 전달하는 메시지의 차이점을 설명해 주세요.
5.
첨부의 여러 이미지들을 시간의 흐름에 따라 배열하고, 하나의 스토리를 제안해 주세요.
6.
제목 학원 : 아래 고양이 사진에 제목을 달아주세요.
그동안 우리는 채팅창에서 '눈을 가린 AI와, 텍스트로 대화' 해왔습니다. 그리고 이제 'AI와 같은 세상을 바라보며, 이미지로 대화' 할 수 있게 되었습니다. 그러니 바로 지금, 여러분이 가진 이미지를 AI에게 보여주세요.
이번 여름까지는 준비된 이미지 파일을 AI에게 '업로드' 해주어야 하는 수준이긴 하지만, 가을이 되면 GPT-4o에 실시간(Real-Time)으로 대화할 수 있도록 눈을 달아준다고 하죠. 스마트폰의 카메라 렌즈를 통해 인공지능은 우리가 사는 세상을 함께 바라보게 될 거고, 멀지 않은 시기에 Apple Vision Pro와 같은 라이브 디바이스를 통해 같은 곳을 바라보며 그것에 대해 실시간으로 이야기 나누는 일상도 도래하게 될 거에요.
그동안 우리는 이미지를 혼자서 감상하고, 아마추어의 눈에 의존해서 예술 작품을 해석해 왔어요. 물론 그것도 참 좋아요. 하지만 히치하이커는 이제 AI 라는 친구, 또는 동료와 함께 이미지를, 예술 작품을 함께 감상하고, 보다 솔직한 대화를 나누고, 전문가의 눈을 빌어 분석하며, 생각하지도 못했던 고차원의 접근과 도전을 시도해 볼 수 있게 되었습니다.
혹자는 예술 작품 감상을 인간의 영역이라고 선을 긋기도 하지만, 그것은 AI 발전 때문에 예술 감상을 포기하는 인간을 전제하는 이야기이죠. 당연히 우리는 그렇지 않을 거에요. 예술은 더 가까워지고 있습니다.
이미지를 읽는 두 번째 도구, Midjourney의 Describe
이미지 생성 도구인 Midjourney에는 Describe라는 기능이 있습니다. 말 그대로 이미지를 텍스트로(I2T) 묘사, 설명해주는 기능이죠. 사용법은 Discord 환경에서 /describe 를 입력하고 이미지를 업로드하면, 그 이미지를 생성하기 위한 프롬프트를 제안해 주고, 또 그 프롬프트로 유사한 이미지를 바로 생성해 볼 수도 있습니다.
위에서 살펴본 GPT-4o 등의 챗봇에서 우리는 정말 다양하고 충분한 가이드, 그리고 프롬프트를 얻을 수 있습니다. 하지만 Midjourney에 이미 학습되어 있는 스타일과 키워드로 설명해 주는 프롬프트는 이미지를 생성하는 데에 더 유용하고, 학습하기에도 정말 좋은 I2T 도구 입니다.
대체로 Midjourney Describe에서 제공되는 프롬프트는 이미지 전체에 대한 요약문, 세부 묘사, 구도, 컬러와 조명, 특수효과, 화풍과 무드 등의 순으로 제공되니, 우리가 사용하는 Midjourney 프롬프트 구조도 그와 같이 작성하면 됨을 유추할 수 있습니다.
또 학습되어 있는 화풍이나 예술가의 이름을 보여주기도 하고, 컬러 네임과 재질, 추상적인 이미지를 텍스트 언어로 묘사하는 흥미로운 표현들도 확인 할 수 있습니다. 아쉬운 점은 아직 Discord 환경에서만 사용 가능하다는 점인데, 머지않아 Web 서비스에서도 구현될 거라 예상 됩니다.
Midjourney를 사용하지 않으시는 분들은, Leonardo.ai 에서 거의 유사한 Describe 기능을 무료로 사용 할 수 있으니 테스트 해보시기 바랍니다. (R1)
AI와 함께 그림 그리기(I2I)
작문 수업 엔딩
우리는 그동안 '텍스트'를 이용한 이미지 이야기를 나누었습니다. 텍스트로 이미지를 만들거나(T2I), 이미지에서 텍스트 힌트를 얻는(I2T) 이야기였죠. 여기에 공통적인 문제는 이미지를 만드는 과정에, 텍스트를 사용한다는 점입니다. 미술을 위해 작문을 하고 있다는 거에요.
그래서 지금부터는 이미지를 이미지로 다루어 보겠습니다. 작문 수업은 잠시 멈추고, 이제 미술 시간입니다.
I2I : Image-to-Image
I2I(Image-to-Image) 기술은 하나의 이미지를 입력으로 받아 새로운 이미지를 생성하는 AI 기술입니다. 저는 I2I를 사용하다 보면, 마치 숙련된 화가가 어떤 이미지에 영감을 받아 새로운 작품으로 증폭되는 창발적 프로세스를 상상하게 됩니다. 때로는 자판기에 이미지를 넣으니 다른 이미지가 뚝딱하고 나오는 느낌이 들기도 합니다.
여기에서 이미지를 넣는다는 표현은 내가 가진 '레퍼런스 이미지(Reference Image)'를 사용한다는 의미입니다. 그것은 텍스트 프롬프트를 넣는 채팅 입력창 외에, 이미지를 업로드 하는 입력 인터페이스가 있다는 것이죠. 그리고 밑그림, 스타일, 캐릭터, 동작의 레퍼런스 이미지를 적용해 볼 수 있다는 뜻이기도 합니다.
현재 기술 동향을 설명해 드리자면, Midjourney, StableDiffusion, Leonardo, Adobe Firefly, Adobe Photoshop 와 같은 가장 주목받는 메이저 도구들은 모두 '이미지 레퍼런스' 기능을 지원하기 시작했습니다. I2I는 기존 T2I 기술의 한계를 극복하는 데 가장 효과적인 도구이기 때문입니다.
I2I 프로세스
제가 강의할 때마다 개념 정의하는 부분이지만, AI 이미지 프로세스는 크게 아래와 같은 구분으로 시작합니다.
이미지 생성 Creating : 이미지를 참고하거나 새로운 이미지를 생성하는 일 이미지 편집 Editing : 생성된 이미지를 수정하거나 확장하거나 해상도를 높이는 일
I2I 분류
그리고 각 단계에는 아래와 같은 세부 분류가 가능합니다.
이미지 생성 Creating
1.
스케치 레퍼런스 : 스토리를 결정하는 요소 _ 구도, 배치, 형태와 외곽선, 피사체와 배경 등
2.
스타일 레퍼런스 : 아름다움을 결정하는 요소 _ 화풍, 컬러, 빛과 조명, 특수 효과 등
3.
캐릭터 레퍼런스 : 일관된 캐릭터를 유지하는 요소_ 캐릭터 외형, 얼굴, 복장, 헤어, 동작 등
이미지 편집 Editing
1.
인페인팅 : 생성된 이미지 내부의 부분 수정과 교체 또는 스타일 교체
2.
아웃페인팅 : 생성 이미지의 캔버스를 상/하/좌/우 방향으로 확장하여 생성함
3.
업스케일 : 완성된 이미지의 해상도를 최종적으로 높임
더 다양하게 레이어링 할 수 있지만, 일단 I2I를 설명하기 위한 기준으로는 위의 것이면 충분할 것 같습니다.
이미지 읽는 연습, 레이어링
자, 이제 위의 기준에 따라 이미지를 레이어링 해서 바라보는 연습을 해보겠습니다.
하나의 이미지에서, 우리는 스토리를 결정하는 '스케치 레퍼런스'와 아름다움을 결정하는 '스타일 레퍼런스', 그리고 '캐릭터 레퍼런스'를 나누어 볼 수 있어야 합니다.
마치 예술 작품을 복원하는 과정에 페인팅을 얇게 한 겹 한 겹 벗겨내듯, 레이어링을 해볼 거에요. 먼저 여러분의 이미지에서 캐릭터가 그려진 부분만 벗겨 보세요. 그리고 컬러 물감으로 아름답게 채색이 된 부분도 벗겨 보세요. 그러고 나면, 마지막으로 각 요소를 그려낸 외곽선의 스케치 라인만 남아 있을 겁니다. 세상에 모든 이미지는 이렇게 최소한 세 겹 또는 그 이상의 이미지 레이어로 구분해 볼 수 있습니다.
이번에는 거꾸로 해볼까요? 즐거운 미술 시간의 드로잉과 페인팅을 생각해 보면 아주 쉽습니다.
우리는 빈 캔버스에 나만의 스토리를 담아 4B 연필로 밑그림, 윤곽과 기본 형태를 그리는 드로잉이나 스케치를 합니다. 그리고 그 위에 다양한 컬러의 물감으로 채색 페인팅 해서 아름다운 작품을 완성해 가죠. 이것이 '스케치 레퍼런스'와 '스타일 레퍼런스'의 가장 쉬운 구분점입니다. 그리고 여러분의 캔버스 위로 캐릭터가 등장한다면, 그 부분은 '캐릭터 레퍼런스'가 될 거에요. 생각해 보면, 우리는 이미 어려서부터 레이어링 기반으로 그림을 그려왔답니다.
이미지 생성 테크닉, 레퍼런스
이런 전통적인 드로잉과 페인팅 프로세스를 우리는 AI 이미지 생성에 차용할 수 있습니다. 스토리만 담아 밑그림 스케치에 해당하는 이미지를 생성해 볼 수 있습니다. 아니면 화풍과 스타일, 빛과 조명, 컬러와 특수효과와 같은 아름다움만을 담아 스타일에 특화된 이미지를 생성할 수도 있습니다. 고유한 개성을 담아 일관된 캐릭터를 유지하기 위한 레퍼런스용 캐릭터 이미지도 생성할 수 있죠.
그리고 세 가지의 레퍼런스 이미지를 모두 모아, 하나의 이미지로 생성할 수도 있습니다.
또는 나의 스토리를 생성하는데, 다른 사람의 스타일 레퍼런스나 캐릭터 레퍼런스를 차용 할 수도 있습니다. 다른 사람의 스토리에 내가 좋아하는 스타일 레퍼런스로 바꾸어 볼 수도 있고, 유명한 캐릭터를 나의 스토리와 스타일로 재탄생시켜 볼 수도 있습니다.
Midjourney에서는 이 스타일 레퍼런스 기능을 공식적으로 강조하고 사전에 준비된 sref 넘버와 다양한 믹스 활용법을 권장하고 있어요. 또 그 데이터와 노하우를 공유하는 커뮤니티도 뜨겁지요.
레이어링을 더 다층적으로 나누어도 되고, 필요한 것만 최소한으로 믹스해도 됩니다. 중요한 것은 우리에게 텍스트 프롬프트 외에, 이미지 레퍼런스라는 자유로운 선택지가 생겼다는 점이에요.
이미지 레퍼런스의 장점
우리가 이미지 레퍼런스를 사용하면 아래와 같은 장점을 얻을 수 있습니다.
텍스트 프롬프트에 모든 내용을 담지 않아도 된다.
텍스트로 설명할 수 없는, 구도나 배치 같은 스케치 요소를 이미지로 가이드 할 수 있다.
텍스트로 설명할 수 없는, 색감이나 무드와 같은 스타일 요소를 이미지로 가이드 할 수 있다.
캐릭터의 개성 요소를 매번 텍스트로 설명하지 않아도, 여러 이미지에 걸쳐 일관된 캐릭터를 유지할 수 있다.
다양한 레퍼런스를 활용하여 더 자유도 높은 크리에이팅이 가능하다.
왜 레퍼런스를 나누는가
복잡한 내용을 하나의 텍스트 프롬프트에 담는 것 보다, '스토리', '스타일', '캐릭터'에 해당하는 내용을 레퍼런스로 나누어주면 보다 효과적으로 생성할 수 있습니다. 마치 콘텐츠 제작을 위해 총괄 디렉터, 스토리팀, 스타일팀, 캐릭터팀으로 나누어 분업하고 각각의 전문성을 더하는 것처럼 말이죠.
다른 한 편, 작업 효율성을 높여주는 역할도 합니다. 텍스트 프롬프트로만 생성하다 보면, 특정 키워드 하나의 문제인데 프롬프트 전체를 수정해야 하거나, 다시 처음부터 시작해야 하는 경우가 많습니다. 프롬프트가 길어지면 어떤 키워드가 문제인지 파악하기도 어렵죠.
하지만 레퍼런스를 이용하면, 작업 과정에 어떤 부분의 문제인지 체크하기도 쉽고, 레퍼런스의 재활용성으로 유사 스타일 활용이나 동일 캐릭터가 등장하는 스토리 구성을 아주 효과적으로 빠르게 작업 할 수 있습니다.
현재 I2I를 지원하는 도구들
현재 주목받고 있는 메이저 AI 도구들이 지원하고 있는 I2I 기술은 아래와 같습니다. 명칭은 조금씩 다르지만, 모두 유사한 기능을 지향하고 있습니다.
Image Creating : with Reference
Midjourney : Image Prompt , Style Reference(sref), Character Reference(cref)
아직 대중화되지는 않았지만, I2I 기술의 미래는 이미 우리 곁에 있습니다. I2I에 ’실시간(Real-Time)’과 ’현실 기반(Real-Based)’이라는 두 가지 주요 키워드를 더하는 것입니다.
실시간 I2I 기술
현재 AI 이미지 생성은 대부분 10초에서 1분 내외의 시간이 소요됩니다. 프롬프트 키워드를 변경할 때마다 실시간으로 이미지를 변경해서 보여주는 서비스도 있지만(R2, R3), 대부분의 이미지 생성 방식은 미리 준비된 프롬프트와 이미지 레퍼런스를 사용해, 대체로 한 번씩 생성하는 방식입니다.
그런데 왼쪽 화면에 마우스나 펜슬로 드로잉을 하면, 우측 화면에서 이미지가 변경되는 실시간 서비스도 꾸준히 개발되고 있습니다. 아직 조금 더 개선되어야 하겠지만 텍스트 프롬프팅도, 이미지 레퍼런스도 거의 실시간으로 반영되는 기술이죠. (R4~R6).
게다가 Adobe Photoshop에 ComfyUI를 플러그인으로 연결하여 실시간 렌더링 활용하는 방식도 실험적으로 테스트 되고 있어요. 포토샵 왼쪽 화면에 드로잉 요소를 배치하면, 우측에 이미지가 생성되는 구조로, 공식 플러그인으로 도입되거나 대중화된다면 디자인 과정의 효율성을 극대화하게 될 거에요. 좌측 에디팅 패널에서 구도와 요소를 계속 바꾸어 가면서, 우측 렌더링 패널의 결과를 실시간으로 확인하며 수정하는 것이기 때문에, 가장 효과적이며 직관적인 I2I 방식이라고 할 수 있겠습니다.
현실 기반 I2I 기술
현재 대부분의 생성 이미지는 현실의 실제 수치에 기반하고 있지 않아요. 그래서 매우 현실적으로 보이는 인테리어 이미지도, 실제 건축 공간이나 인테리어에 바로 반영할 수 있는 수준은 아닙니다. 실제 공간의 사이즈가 연동되지 않는 이미지이고, 건축 환경에 대한 기술적 이해 없이 그림만 그려주는 AI이기 때문입니다.
그래서 간단한 핸드 드로잉을 실제 수치 기반의 3D 모델로 자동 변환하고, 이미지로 렌더링 되는 AI가 개발되고 있어요. 실측 기반 기술은 디자인의 정확도를 높이는 데 중점을 둡니다. 모델과 소비자 핏을 맞추어야 하는 패션 디자인 AI나, 시제품과 목업을 사용하는 제품 디자인 AI 분야도 마찬가지입니다.
이미지 생성 도구의 I2I 다음 스텝은 각 산업 분야의 실측 기반 데이터를 기반으로 연결되는 현실화 작업이 될 것입니다.
이미지 언어 : 레퍼런스의 힘
T2I(Text-to-Image)에서 시작된 AI 이미지 생성 기술은 I2T(Image-to-Text)와 I2I(Image-to-Image)의 안정적 구축으로 최근 큰 진전을 이루고 있습니다. 특히 가장 주목받는 메이저 AI 환경에서 이미지 레퍼런스 활용이 모두 가능해지면서, 이미지 생성의 패러다임이 크게 변화하고 자리 잡아가는 모양새입니다.
이미지 레퍼런스의 활용은 텍스트 프롬프트만으로는 표현하기 어려웠던 구도, 스타일, 분위기 등을 직관적으로 AI에 전달할 수 있게 해주고 있어요. 여기에서의 코어는 사용자의 의도를 더 정확히 이해하고 구현할 수 있게 돕는다는 점입니다.
더불어 I2T 기술의 발전으로 AI가 이미지를 '읽고' 해석할 수 있게 되면서, 이미지 생성 과정에서 피드백과 반복이 더 효율적으로 이루어질 수 있게 되었습니다. T2I가 컨트롤되지 않는 랜덤한 주사위 게임이었다면, 이제 도구가 늘어나면서 보다 I2I는 효율적인 프로세스에 가까워지고 있어요.
이러한 기술의 조합은 텍스트로 초안을 만들고(T2I), AI의 해석을 받아(I2T) 수정 방향을 정한 뒤, 구체적인 이미지 레퍼런스로 세부 조정(I2I)하는 새로운 창작 워크플로우를 가능케 하고 있습니다. 그리고 이 방향은 당분간 계속될 것 같아요.
다음 편에서는 T2V(Text-to-Video)와 I2V(Image-to-Video)를 통해 '비디오 AI' 이야기를 시작하려고 합니다. 흐트러지거나 어설프게 움직이던 비디오가 최근에 곧 잘 움직이기 시작했거든요.
그런데 비디오 생성 AI에서도 '이미지 레퍼런스' 활용은 큰 도움이 됩니다. 그러니 여러모로 I2I에 익숙해지시면 좋겠습니다.
저는 이번 여름을 Midjourney의 스타일 레퍼런스(sref), 그리고 비디오 생성 도구인 Luma Dream Machine, Runway의 Gen-3 와 함께 보내고 있습니다. 도구는 교체될 수 있지만, 지금 이들이 이후 가장 중요한 흐름을 만들고 있다는 생각이에요.
다음 편의 힌트를 미리 드리자면 이미지와 비디오의 기본 학습 패턴은 유사합니다. 스틸 이미지의 프롬프트로 기초를 쌓고, 이미지 레퍼런스에 익숙해지고, 타임라인의 프롬프트를 더하면 비디오 AI가 가까워 집니다.
생각과 기술 정리해서 유용한 글로 돌아오겠습니다. 그때까지, Don't Panic! AI와 즐거운 여름 보내세요!