오늘은 AI 히치하이커를 위한 두 번째 가이드, 텍스트 투 이미지(T2I)에 대해 들려 드릴게요.
인류, 상상을 꺼내어 놓다
세상의 모든 이야기와 이미지의 출발점은 우리의 '머릿속' 또는 '상상'입니다. 우리는 머릿속에 둥둥 떠다니는 이야기나 상상 속 이미지를 다양한 방식으로 꺼내어 세상에 전해왔어요. 말로 전하거나, 그림으로 그려내거나, 글자로 기록하거나, 영상으로 만들기도 하죠.
인류사도 이러한 순으로 발전해 왔어요. 감정이나 의도를 단순한 소리로 표현하다가, 동굴 벽화를 그리더니, 상형문자나 표의문자로 기록하기 시작하고, 언어와 문화가 발전하고, 회화의 양식이 정교해지고, 조금 더 시간이 흘러 영화를 만들게 되는 순으로 말이에요. 그리고 다음은 어떻게 될까요?
단편적으로 요약하자면, 인류의 상상 속 이야기와 이미지들은 단순한 사운드 형태에서(I2S: Imagine-to-Sound), 점차 그림으로(I2I: Image), 그리고 문자를 통해(I2T: Text), 영상을 통해(I2V: Video), 더 세밀하게 표현되는 방식으로 확장되고 진화해 왔습니다.
히치하이커의 기술
인류의 후손인 우리 히치하이커도 상상 속 이미지를 다양한 방식으로 표현하고 있죠. 다만, AI 이미지 기술은 조금 다른 순서로 발전하고 있는데요. 인간의 복잡한 음성 대화에서 정보를 추출하는 것보다, 텍스트 키워드에 함축되고 학습된 구체적인 정보를 기반으로 이미지를 생성하는 것이 더 쉽기 때문이에요.
그래서 텍스트 프롬프트로 이미지를 생성하는 방법이 가장 먼저 구현되었고(T2I), 최근에는 실시간 드로잉이나, 다른 이미지를 레퍼런스로 참조하는 방법도 구현되고 있습니다(I2I). 그리고 AI와 대화하며 실시간으로 이미지 생성하는 기술도 점차 가까워지고 있구요.
인류가 상상을 현실로 불러오는 방식은 라스코 동굴 벽화 이후에도 꾸준히 발전해 왔지만, 최근의 AI 기술은 마치 히치하이 한 것과 같은 갑작스러운 기술이라, 그 누구도 제대로 준비되어 있지 않죠.
그러니 본격적인 운동을 앞두고 스트레칭으로 준비하듯, 이 기술들을 순서대로 하나하나 살펴보겠습니다. (히치하이커 여러분, 우리의 AI 여행은 이제 시작이라는 사실을 잊지 마세요.)
텍스트-투-이미지 (T2I) 기술
첫 번째로 소개드리는 기초 기술인 텍스트-투-이미지(T2I)는 사용자가 입력한 텍스트 프롬프트를 바탕으로 AI가 이미지를 생성하는 기술입니다.
예를 들어, "하늘을 나는 돌고래"라는 텍스트 프롬프트를 입력하여 멋진 이미지를 생성할 수 있습니다. DALL·E 3나 Midjourney와 같은 거의 대부분의 이미지 생성 플랫폼에서 사용되는 방식이며, 덕분에 수많은 사람들이 이 특이점에 해당하는 기술을 손쉽게 경험하고 있어요.
T2I 원리
텍스트로 이미지를 만든다니, 구체적으로는 어떻게 이루어지는 것일까요?
1.
노이즈에서 시작 : 사실 모든 이미지는 무작위의 색점들로 구성된 ‘노이즈’ 상태에서 시작돼요. 마치 신호가 없는 텔레비전의 ‘지지직‘ 화면처럼 보이는 난수 베이스의 이미지가 준비되는데, 모든 이미지의 출발점(씨앗)이 되기 때문에 SEED라고도 불린답니다.
2.
프롬프트 입력 : 이제 여기에 당신의 상상을 더해 봅시다. “하늘을 나는 돌고래”라고 입력해 볼까요?
3.
프롬프트의 이해 : 먼저 AI는 당신의 프롬프트에서 “하늘을”, “나는”, “돌고래”라는 키워드가 가진 이미지를 파악해요. 그리고 전체의 문맥에서 각각의 단어가 어떤 이미지를 나타내는지 학습된 데이터를 기반으로 분석하고, 이해하고, 사용자의 의도를 파악하죠.
4.
이미지 생성 시작 : AI는 노이즈 상태의 점들에 색상을 점차 변경하며 이미지를 만들어 가요. 처음에는 그냥 노이즈 상태였지만, 이 과정에서 점점 더 구체적인 형태와 색을 띠게 됩니다. 마치 캔버스에 물감을 덧칠해 나가는 것처럼요.
5.
디테일 추가 : AI는 여러 단계를 거치며 이미지를 점점 더 세밀하게 다듬어요. 큰 윤곽이 잡히면, 세부적인 부분을 채워가며, 컬러나 재질감을 추가하여 화풍과 무드를 완성해 갑니다.
6.
완성된 이미지 : AI는 최종적으로 프롬프트에 맞는 이미지를 완성해 갑니다. 마치 마법처럼, 무작위 색점들은 멋진 그림이 됩니다. 그리고 당신은 하늘을 나는 돌고래를 볼 수 있게 되는 거죠.
[GIF] 텍스트 프롬프트를 받아, 노이즈가 이미지로 변환되어 가는 과정 (Midjourney)
당신의 상상력은 이렇게 세상에 무의미한 점들을 하나하나 바꾸고, 아름다운 이야기를 가진 이미지로 완성되어 갑니다. 마치 밤하늘에 무수한 별들이 모여 한 편의 그림이 그려지는 우연처럼 말이죠
T2I 장점
여러분은 혹시 위에 생성된 이미지보다 더 아름다운 이미지를 상상하셨나요? 또는 생성된 이미지를 보고 나서, 또 다른 상상을 더 할 수 있게 되지는 않으셨나요? 사실 필자에게 T2I의 가장 경이로운 부분은 상상 이상의 시각적 영감을 주는 것이었어요.
하지만, 이 기술은 단순히 영감을 제공하는 것을 넘어, 우리 히치하이커들에게 현실적으로 엄청난 기회를 제공하고 있습니다.
1.
고품질 이미지: 손 그림 실력이 부족하더라도, 프롬프트 입력만으로 전문적인 수준의 고품질 이미지를 쉽게 만들어낼 수 있어요. 오랜 숙련의 시간이 필요하지 않습니다.
2.
비용 효율성: 현업에서 저렴한 비용으로, 비전문가도 전문 디자이너와 협업하는 효과를 얻을 수 있습니다. 예산이 부족한 스타트업, 소규모 기업, 개인 크리에이터 모두에게 가장 매력적인 옵션이죠.
3.
다양한 콘텐츠: 다양한 이미지를 변형하고 재생산하는 과정에서, 정말 많은 예술적 아이디어와 다양한 형태의 콘텐츠 제작에 자연스럽게 노출됩니다. 사용을 시작하는 순간, 우리는 크리에이터가 됩니다.
4.
빠른 시각화: 복잡한 아이디어를 프롬프트로 빠르고 다양하게 시각화해 볼 수 있습니다. 빠른 전개와 재구성을 시도하려는 아이디어 넘치고 속도감 있는 유저에게 유용합니다.
5.
프리 트레이닝 : T2I 활용 이후에 앞으로 여러분은 3D 이미지를 만들고, 비디오를 만들어 활용하는 단계로 나아가게 될 거에요. T2I의 사용 경험은 그 자체로, 이후 모든 비주얼 콘텐츠 제작의 기초 훈련입니다.
상상 속 이미지를 현실로 구현해 주는 이 기술은 단순한 도구를 넘어, 현실을 새롭게 구성하는 강력한 수단 또는 무기이기도 합니다. 내 상상을 가장 잘 이해하고 시각적으로 연출해 주는 가장 현실적인 지원군이자, 묵묵히 함께해주는 완벽한 파트너이죠. 세상에 이런 친구라니요.
T2I 한계
그러나 '상상 속 이미지'를 '텍스트 프롬프트'라는 형태로, 또는 '명확한 키워드'로 표현해 내는 것은 사실 어려운 작업입니다.
보통 우리의 상상 속 이미지는 대부분 명확하지 않고 흐릿한 상태이거든요. 사실 히치하이커와 대화를 해보면, 본인이 생성하고 있는 이미지가 무엇인지 잘 모르고 있는 경우도 정말 많습니다. 그 배경에는 이미지 상상을 돕는 교육 프로그램이 글쓰기 훈련만큼 대중적이지 못한 원인도 있구요.
혹시, 당신이 명료한 이미지를 상상해 내는 능력의 히치하이커라고 해도, 효과적인 텍스트 프롬프트로 표현해 내는 또 다른 능력이 필요합니다. '시각적 상상 능력'과 더불어 '언어적 표현 능력'이 모두 필요한데, 심지어 AI 이미지에 라벨링되어 있는 '특정 키워드'를 효율적인 ‘프롬프트 구조’에 따라 정확하게 사용해야 해요.
예를 들어, "colorful"이라는 표현보다 "vivid colors” 나 “rainbow colors"가 더 좋고, "aqua-blue, lemon-yellow, coral-pink"와 같은 키워드가 AI에게는 더 명확한 지시가 될 수 있습니다. 가능한 구체적인 키워드를 사용하는 겁니다. 하지만 구체적인 컬러가 떠오르지 않는 경우에는 "colorful"이란 키워드를 통해 AI에게 미학적 요소를 위임하는 것도 훌륭한 방법론이 됩니다.
하지만 정확한 키워드가 사용되었음에도 불구하고 : 키워드가 중의적으로 작동하거나, 문맥 안에서 다르게 작동하고, 또 문화권에 따라 전혀 다른 이미지를 구성할 수도 있습니다.
예를 들어, "apple"은 과일을 의미할 수도 있고, 아이폰으로 유명한 기업 브랜드를 의미할 수도 있습니다. 또 “잘 익은 사과처럼 빨간”이라는 시적인 프롬프트를 사용한다면 진한 레드 컬러보다 그냥 사과를 그려낼 확률이 높은 거죠. 그리고 "전통적인 결혼식"이라는 프롬프트는 문맥과 문화에 따라 너무나도 다양한 이미지를 연출하게 될 겁니다.
프롬프트를 긴 문장으로 작성한다고 해서, 더 좋은 이미지가 생성되는 것도 아닙니다. 대부분의 AI 이미지 생성 모델에는 유효하게 입력할 수 있는 최대 길이가 있어, 긴 프롬프트의 경우 중요한 단어가 덜 강조되거나 덜 중요한 단어가 더 강하게 연출될 수 있습니다. 대체로 전체 문장에서 앞쪽의 문장이 높은 가중치를 가지기 때문에 중요한 요소의 설명은 앞에 배치하는 것이 좋습니다. 가능하다면 짧고 명료한 프롬프트가 더 효과적이구요.
다른 한 편, 텍스트로 설명이 불가능한 추상적이고 감성적인 요소들이 있어요. 아직 학습되지 않은 키워드도 있구요. T2I는 불완전한 도구라 모든 것을 텍스트로 설명하려는 욕심을 내려놓아야 하기도 합니다. 섬세한 컬러톤이나 미묘한 감정을 텍스트로 묘사하는 일에도 분명 한계가 있죠.
피사체가 아닌 배경 요소에 세밀한 연출을 원하거나, 교실에 놓인 무수한 의자의 배치를 프롬프트로 하나하나 설명하기란 참 어려운 일입니다. 사물의 배치나 좌표값을 하나하나 지정하면 될 것 같지만, 아직 그런 기능이 지원되지도 않거니와, 이미지의 모든 요소를 설명하는 과정은 노동에 가깝습니다.
그래서 간단한 디렉션 키워드로 AI에게 위임하는 노하우도 필요해요. 예를 들면 ‘잘 정리된 의자들’, ‘원형 탁자에 배치된 의자’와 같은 프롬프트를 사용하는 거에요.
마지막으로 AI가 편향적인 이미지를 생성하는 문제도 있습니다. AI 모델이 학습한 데이터셋에 특정 문화권이나 인종, 성별에 대한 인류의 편향이 있어, 생성되는 이미지에도 그러한 편향이 반영되는 거죠.
예를 들어, "의사", "교수"라는 키워드에 주로 백인 남성 이미지를 생성한다거나, "아름다움"이라는 키워드에 여성이나 특정 컨셉만을 반영하는 경우가 있죠. 대부분의 플랫폼에서 이미지의 편향성을 조정하고 있지만 아직은 가야 할 길이 많이 남아 있습니다. 물론, 이러한 편향적이거나, 전형적인 키워드를 역으로 이용해서 이미지를 생성하는 전략도 매우 효과적인 방법론이 될 수 있습니다.
만약, 여러분들이 텍스트로 이미지를 생성하는 달리나 미드저니 등의 플랫폼(T2I)에서 무언가 원하는대로 잘 되지 않으신다면, 위의 이야기 속에서 작은 힌트를 찾아보세요.
T2I 러닝
그러면 텍스트 투 이미지(T2I) 기술을 효과적으로 활용하는 데에 우리는 다음과 같은 방법을 사용할 수 있습니다.
1.
프롬프트 문장 배치: 이미지 전체를 요약하는 문장을 먼저 작성하고, 피사체와 배경에 대한 문장을 순서대로 배치합니다. 이후에 세부 묘사, 컬러와 조명, 특수효과, 무드 등을 추가합니다. 가능한 일곱 문장 이내로 사용하세요.
2.
프롬프트 구조: AI가 이해하기 쉬운 형용사+명사 또는 주어+동사+목적어 영문 구조를 사용하세요. 패턴이 잡힌 문장 구조는 직관적인 이미지 생성에 도움이 될 뿐만 아니라, 사용자가 이후 프롬프트를 수정 재활용하는 데에도 효과적입니다.
3.
순서대로 묘사하기: 만약 대상을 설명하는 것이 어렵다면, 좌상단에서 우하단 방향으로 보이는 것을 순서대로 설명하듯 묘사해 보세요.
4.
구체적 키워드 사용: 모호한 단어 대신 구체적이고 상세한 키워드를 찾아보세요. 더 명확한 이미지를 연출하는 키워드가 반드시 존재합니다. 내가 모를 뿐이에요.
5.
짧고 명료하게: 프롬프트를 간결하게 작성하여 중요한 요소를 명확하게 표현하세요. 긴 문장은 AI에게 중요한 정보를 놓치게 만듭니다.
6.
메인 요소 강조: 중요한 요소가 있다면 전체 프롬프트의 앞부분에 배치하여 강조하거나, 구체적인 묘사를 추가하고, 유사 키워드를 나열하여 AI가 대상에 집중하도록 유도합니다. 반대로 중요하지 않은 것은 묘사하지 마세요.
7.
문맥 명확화: 중의적인 키워드를 사용해야 하는 경우, 문맥을 통해 명확하게 가이드하세요.
8.
디렉션 키워드 활용: 묘사해야 할 것이 많을 때는 하나하나 설명하지 말고, 감독처럼 포괄적이고 명확한 디렉션을 제공하세요. 그리고 AI를 믿어보세요.
9.
문화 기반 키워드 활용: 시각적으로 다양한 문화적 배경을 품은 키워드를 사용해 보세요.
만약 장기적 학습을 고려하신다면, 아래와 같은 세 가지의 역량을 검토해 볼 수 있습니다.
1.
머릿속 상상을 구체화하기: 상상 속 이미지를 명확하게 떠올리도록 노력하세요.
2.
상상 이미지를 텍스트로 표현하기: 상상한 이미지를 텍스트 언어로 명확하게 묘사하기 위해 노력하세요.
3.
시각적 안목 기르기: 생성된 이미지 중 최적의 결과물이나 편집점을 선별할 수 있는 안목을 키우세요.
T2I 기술로 생성되는 이미지는 우리의 상상과 결코 일치할 수 없기 때문에, 프롬프트를 수정하며 원하는 이미지를 찾아가는 재생성 과정이 반드시 수반됩니다. 따라서 이 과정에 무수히 생성되는 B-Cut의 수많은 이미지 중에서 최선의 이미지를 빠르게 선별하고, 디벨롭을 위해 효과적으로 의사결정 하는 시각적 안목은 정말 중요합니다.
장기적인 학습 목표가 쉬운 일은 아니지만, 멀리 보는 히치하이커에게는 반드시 추천드릴 역량이 될 것 같습니다.
더불어 미드저니를 비롯한 여러 웹사이트에 다양한 샘플이 공개되어 있는데, 사실 가장 훌륭한 학습 교재라고 생각합니다. 실제로 사용된 인풋 프롬프트와 아웃풋 이미지의 상관관계를 학습하는 것이라 가장 적실하죠. 또 기술적이고 감성적인 모든 영역에서 우리를 다양하게 도와주는 GPT-4o 챗봇 활용 능력도 정말 중요하구요.
이러한 단기적 방법들과 장기적 학습 전략을 통해 텍스트 투 이미지(T2I) 기술을 더욱 효과적으로 활용할 수 있습니다. 조금은 더 정교하고 만족스러운 결과를 얻을 수 있을 거에요.
T2I, 다음의 기술
오늘은 여기까지. 다음 편에서는 텍스트 투 이미지(T2I) 이후의 최신 기술에 대해 다루어 보겠습니다. 이미지를 설명하고 분석해 주는 기술(I2T), 그리고 기존 이미지를 참고하여 새로운 이미지를 생성하는 기술(I2I)이 준비되어 있거든요.
많은 업무로 힘들어하는 신입 사원에게 업무를 나누어 순차적으로 제공하면 업무 효율이 높아지는 것처럼, AI도 이미지 생성 과제를 단계적으로 나누어 요청하면 훨씬 더 잘 만들어 준답니다. 앞에서 텍스트 프롬프트를 간결하게 작성하고, 길지 않은 문장으로 제공하는 것도 유사한 원리였구요.
우리가 T2I에서 이미지 생성을 오직 텍스트 프롬프트에만 의존했다면, 앞으로는 다양한 이미지 레퍼런스를 활용하여 보다 직관적이고 효과적으로 이미지를 생성할 수 있는 방법이 제공됩니다.
텍스트 프롬프트 외에 밑그림 레퍼런스, 스타일 레퍼런스, 캐릭터 레퍼런스를 각각 설정하여 명확한 생성 가이드를 제공할 수 있거든요. 이처럼 분업 지시하듯, AI에게 이미지 생성을 나누어 요청하는 방법에 대해 알아볼게요.
그럼, 조금 더 쉬워질 다음 시간까지, 이미지 프롬프트 작성에 어려움을 겪는 분들 모두 Don’t Panic.