합성소비자 리포트

인텔리시아 트렌드리포트
"사겠다"고 말한 설문 조사 속 선의의 거짓말... AI가 걸러낼 수 있다면
"이 제품이 출시되면 구매하시겠습니까?" 이 질문에 "예"라고 답한 소비자 중, 실제로 지갑을 여는 비율이 얼마쯤 될까요? 설문조사 업계에서 오랫동안 알려진 불편한 진실이 있습니다. 사람들은 가상의 질문에 답할 때, 실제 행동과 다르게 응답합니다. 학술적으로는 이를 "가상적 편향(Hypothetical Bias)"이라 부릅니다. 행동경제학 연구에 따르면 가상 상황에서 보고되는 지불의향(WTP)은 실제 돈이 관련된 상황보다 약 3배 높습니다. 이건 응답자의 잘못이 아닙니다. 인간의 뇌가 원래 그렇게 작동합니다. 문제는, 수천만 원짜리 신제품 의사결정이 이 "선의의 거짓말" 위에 세워진다는 것입니다. AI 합성소비자(Synthetic Consumer)가 이 문제를 어떻게 해결하는지, 실제 인텔리시아의 프로젝트의 사례로 보여드리겠습니다. 아래 조사는 실제 인텔리시아 고객사 POC 사례를 근거로 재창조된 것입니다. (조사 제품이나 설문, 응답 데이터는 실제 케이스와 무관합니다) 사례 1. 지불의향(WTP)의 함정 — "내 돈 아니면 쿨하게" 한 프리미엄 그래놀라 브랜드가 신제품(400g)의 적정 가격을 조사했습니다. 실제 설문 응답자 300명과 AI 합성소비자 300명에게 동일한 질문을 던졌습니다. "이 프리미엄 그래놀라에 얼마까지 지불할 의향이 있으십니까?" 현실의 응답자와 AI 합성 소비자 설문 결과는 정반대였습니다. 실제 응답자 중 28%는 25,000원 이상을 지불하겠다고 답했고, 35%는 20,000~24,900원, 24%는 15,000~19,900원을 선택했습니다. 즉, 응답자의 87%가 15,000원 이상 지불할 수 있다고 답한 것입니다. 반면 AI 합성소비자는 지갑을 여는 데 훨씬 보수적이었습니다. 25,000원 이상을 선택한 비율은 3%에 불과, 가장 많은 응답(41%)이 10,000~14,900원에 집중되었습니다. 10,000원 미만이라고 답한 비율도 27%나 됐습니다. 전체의 68%가 14,900원 이하에 몰려 있었기 때문에 상대적으로 '짠돌이 소비자'였습니다. 왜 이런 차이가 나는 걸까요? 설문 응답자는 가상의 구매 상황에서 관대해집니다. 400g짜리 그래놀라에 25,000원을 내겠다고 답하는 것은, 실제 마트 진열대 앞에서 같은 선택을 하는 것과는 전혀 다른 심리적 맥락입니다. 설문지 위에서는 그 금액이 내 통장에서 빠져나가는 것이 체감되지 않기 때문입니다. 인텔리시아가 만난 많은 고객사분들이 "제품 출시 전 사전 조사에서 수집된 고객 지불 의사에 비해 판매량이 현저히 저조하다"고 이야기한 이유입니다. AI 합성소비자는 '내일 통장 잔고를 생각하는 합리적 소비자'에 가깝습니다. 해당 소득 수준의 실제 식품 지출 패턴, 프리미엄 식품의 시장 가격대(그래놀라 시장 기준 9,900~15,900원), 카테고리별 가격 민감도 데이터를 기반으로 구축되기 때문에, 비현실적인 가격 수용 응답이 구조적으로 걸러집니다. 사례 2. 컨셉 테스트의 함정 — "다 비슷비슷해서 고를 수가 없다" 한 식물성 단백질 음료 브랜드가 4개 신제품 컨셉(A: 고단백 저칼로리, B: 오트밀크 블렌드, C: 비건 프로틴, D: 곡물 쉐이크)에 대해 소비자 선호도를 조사했습니다. 5점 척도로 구매 의향을 물었고, Top2(4~5점) 비율로 비교했습니다. 실제 응답자의 결과는 이랬습니다. 컨셉 A가 46%, B가 51%, C가 48%, D가 50%. 최대 편차가 5점에 불과합니다. 통계적으로 유의미한 차이가 없으니, 사실상 의사결정이 불가능합니다. AI 합성소비자의 결과는 전혀 달랐습니다. 컨셉 A가 63%, B가 81%, C가 28%, D가 69%. 최대 편차 53점. 컨셉 B(오트밀크 블렌드)가 압도적 승자이고, 컨셉 C(비건 프로틴)는 확실한 탈락입니다. 이것은 '중앙 응답 편향(Central Tendency Bias)'이라 불리는 현상입니다. 설문 응답자들은 극단적인 점수를 주는 것을 심리적으로 꺼립니다. "이건 정말 별로야"라고 1점을 주거나 "이건 무조건 산다"라고 5점을 주기보다, 2~4점 사이의 무난한 점수를 택합니다. 결과적으로 모든 컨셉이 비슷한 점수대에 몰리게 됩니다. AI 합성소비자는 다릅니다. 실제 구매 상황에서의 선택적 반응을 모사하기 때문에, '살 것'과 '안 살 것'을 선명하게 구분합니다. 마트 진열대 앞에 서서 손이 가는 제품과 그냥 지나치는 제품이 명확히 갈리는 것과 같은 이치입니다. 실제 인텔리시아에선 컨셉 수용도 비교 결과, 의사결정이 불가능한 상태에서 의뢰를 한 고객이 있습니다. 최종 의사결정 마감까지 일주일이 남지 않은 상황에서, AI 합성소비자를 대상으로 같은 컨셉 조사를 돌린 것입니다. 그 결과 편차가 확실한 결과를 얻었고, AI 합성소비자 조사 결과를 바탕으로 의사 결정을 내렸습니다. 이 변별력이 R&D와 마케팅의 의사결정을 근본적으로 바꿉니다. 글로벌 검증: EY × Aaru — 6개월 조사를 하루 만에 이런 합성소비자 기술은 글로벌 무대에서도 검증되고 있습니다. 2025년, 세계적 컨설팅사 EY는 미국의 합성응답자 스타트업 Aaru와 협업하여 자사의 '2025 EY Global Wealth Research Report'를 AI 합성소비자로 재현하는 대규모 실험을 진행했습니다. 이 보고서는 원래 30개국 3,600명의 부유층 투자자를 대상으로 6개월에 걸쳐 수행되는 업계 최대 규모 리서치 중 하나입니다.
AI 4,000명이 분석한 K-pop 팬덤 화력 랭킹 "인기 투표가 아닙니다. 돈·시간·멘탈을 끝까지 맡길 수 있는 팬덤을 찾았습니다." 🤖 이 조사는 어떻게 만들어졌나요? AI 합성소비자란? 저희는 실제 사람 대신 AI가 설문에 응답하는 방식으로 이 조사를 진행했습니다. "AI가 어떻게 사람처럼 대답해요?"라고 물으실 수 있는데요. AI 합성소비자는 단
AI 4,000명이 분석한 K-pop 팬덤 화력 랭킹 "인기 투표가 아닙니다. 돈·시간·멘탈을 끝까지 맡길 수 있는 팬덤을 찾았습니다." 🤖 이 조사는 어떻게 만들어졌나요? AI 합성소비자란? 저희는 실제 사람 대신 AI가 설문에 응답하는 방식으로 이 조사를 진행했습니다. "AI가 어떻게 사람처럼 대답해요?"라고 물으실 수 있는데요. AI 합성소비자는 단순히 ChatGPT에게 "너 20대 여성이야"라고 말하는 게 아닙니다. 인터넷의 방대한 실제 이용자 데이터(소셜 미디어, 커뮤니티, 설문 응답, 인터뷰, 구매 패턴, 리뷰)를 학습한 AI에게서 특정 페르소나를 끌어내 실제로 어떻게 생각하고 행동하는지를 재현합니다. 예를 들어: 28세 여성, 서울 거주, 사무직 BTS 팬 5년차, 연간 콘서트 2회 참석 앨범 전버전 구매, 팬클럽 가입 중 이런 구체적인 프로필을 가진 AI 클론 4,000명이 설문에 응답한 겁니다. 왜 AI로 조사했나요? 실제 사람을 대상으로 방대한 조사를 돌리는데 걸리는 시간과 비용, 현실적 어려움을 줄일 수 있기 때문입니다. 두 달 이상 걸리는 규모의 설문이 단 하루 만에 가능하고, 비용은 절반 이하로 줄일 수 있습니다. K팝 코어팬 4000명에게 설문을 돌리는 것도 쉽지 않고요. AI 합성소비자 서베이 결과는 과연 현실과 비슷하냐고요? 현재 인텔리시아가 수행한 60건 이상의 서베이가 실제 사람 조사와 비교했을 때 85% 이상 재현율(현실과 일치하는 정도)를 기록하고 있습니다. 📋 설문 설계: "진짜 화력"을 측정하려면? K-pop 팬덤을 분석할 때 흔히 쓰는 지표들이 있죠. 음원 차트 순위 앨범 판매량 SNS 팔로워 수 하지만 이건 팬덤의 "규모"일 뿐, "질"을 말해주지 않습니다. 저희는 다른 질문을 던졌습니다: "이 팬덤은 시간이 지나도 남는가?"
AI 합성소비자로 시뮬레이션한 한국 주요 대기업 이미지
AI 합성소비자로 시뮬레이션한 한국 주요 대기업 이미지 "실제 설문 없이, AI로 소비자 인식을 예측할 수 있을까?" 더서베이(The Survey)에서 AI 합성소비자 기술을 활용해 한국 주요 대기업에 대한 이미지를 시뮬레이션해봤습니다. 실제 사람을 대상으로 한 설문이 아닙니다. AI로 만든 한국인 가상 페르소나(인격) 560명이 각 기업에 대해 6가지 항목을 평가한 결과입니다. 그 결과, 흥미로운 패턴들이 발견되었습니다. 실제 사람의 기업 이미지와 얼마나 비슷할지, 비교해보는 것도 흥미로울 것입니다. 합성소비자(Synthetic Consumers)란? 본 조사에 활용된 '합성소비자'는 AI가 실제 소비자를 시뮬레이션하여 설문에 응답하는 기술입니다. 대규모 언어모델(LLM)이 인터넷상의 방대한 소비자 리뷰, 포럼 토론, 구매 후기, 뉴스 기사 등을 학습했기 때문에 가능합니다. 물론 합성소비자가 실제 소비자를 완벽히 대체할 수는 없습니다. 하지만 빠른 가설 검증, 조사 방향 설정, 아이디어 스크리닝 용도로는 충분히 활용 가치가 있습니다. 이번 시뮬레이션도 "실제 소비자들이 이렇게 생각한다"가 아니라, "AI가 학습한 데이터 기반으로 이런 패턴이 예측된다"는 관점에서 봐주시면 좋겠습니다. 시뮬레이션 개요 AI 페르소나 수: 560명 성별 분포: 남성 50%, 여성 50% 연령대 분포: 10대~70대 이상 균등 분포 (각 14%) 평가 항목: 기술력, 일상 관련성, 젊고 트렌디함, 신뢰도, 사회적 책임, 취업 희망도 척도: 매우 그렇다 / 그렇다 / 보통 / 아니다 / 전혀 아니다 8개 그룹 전체 비교 긍정률 기준 종합 비교 항목 삼성 SK 현대차 LG 롯데 포스코
합성소비자(Synthetic Consumers)란 무엇인가: 하버드와 스탠포드가 증명한 AI 소비자조사의 가능성
합성소비자, 정확히 무엇인가? '합성소비자(Synthetic Consumers)' 또는 '합성응답(Synthetic Responses)'이란, AI가 실제 소비자를 시뮬레이션하여 설문이나 인터뷰에 응답하는 것을 말합니다. 쉽게 비유하면 이렇습니다. 영화 제작에서 '스턴트맨'이 위험한 장면을 대신 촬영하듯, 합성소비자는 실제 소비자 대신 설문에 응답합니다. 단, 스턴트맨이 배우의 움직임을 완벽히 재현하듯, 합성소비자도 실제 소비자의 태도와 선호도를 높은 정확도로 재현해야 의미가 있습니다. 이것이 가능한 이유는 대규모 언어모델(LLM)이 인터넷상의 방대한 소비자 리뷰, 포럼 토론, 구매 후기 등을 학습했기 때문입니다. 이 학습 데이터에는 소비자들이 제품에 대해 어떻게 생각하고, 무엇을 선호하며, 어떤 가격대에 반응하는지에 대한 정보가 담겨 있습니다. 그렇다면 실제로 얼마나 정확할까요? 최근 발표된 두 편의 주요 연구가 이 질문에 답합니다. 🎓 연구 1: 하버드 비즈니스 스쿨 "Using LLMs for Market Research" 2025년 10월, 하버드 비즈니스 스쿨의 Ayelet Israeli 교수와 Microsoft 연구팀이 "Using LLMs for Market Research" 논문을 발표했습니다. 연구팀은 GPT-3.5 Turbo를 활용해 소비자의 **지불의향가격(WTP, Willingness-to-Pay)**을 추정하고, 이를 실제 인간 설문 결과와 비교했습니다. 핵심 실험 결과: 치약의 '불소(Fluoride)' 성분에 대한 WTP를 비교했을 때: GPT 추정값: $3.40 인간 설문 결과 (Fong et al. 2023): $3.27 두 값의 차이가 4% 미만입니다. 더 중요한 것은, Fong et al.(2023) 연구가 자신들의 설문 결과가 실제 시장 결과와 일치함을 검증했다는 점입니다. 즉, GPT의 추정치가 실제 시장 행동과도 유사할 가능성이 높다는 것입니다. 연구팀은 한 걸음 더 나아가, 기존 인간 설문 데이터를 GPT에 추가적으로 제시했을 때 어떤 변화가 있는지 실험했습니다. 결과는 놀라웠습니다. 새로운 제품 특성에 대해서도 예측 정확도가 크게 향상되었습니다: 노트북의 '내장 프로젝터' 기능에 대한 WTP: 정보 제시 전 GPT는 인간의 3배 이상을 추정했으나, 추가 정보 제시 후 인간 추정치와 거의 일치 치약의 새로운 맛(오이, 팬케이크)에 대한 선호도: 정보 제시 전에는 부호(+/-)가 반대였으나, 추가 정보 제시 후 인간과 동일한 방향으로 수정 연구팀의 결론은 명확합니다: "GPT를 새로운 아이디어를 빠르게 테스트하고 범위를 좁히는 도구로 활용할 것을 권장한다." 🔬 연구 2: 스탠포드 "Generative Agent Simulations of 1,000 People" 2024년 11월, 스탠포드대학의 Joon Sung Park 연구팀도 야심찬 연구를 발표합니다. 하버드 연구가 '일반적인 소비자'를 시뮬레이션했다면, 스탠포드 연구는 특정 개인을 복제하는 데 도전했습니다. 연구 방법: 연구팀은 1,052명의 미국인을 모집하고, 각각 2시간 동안 심층 인터뷰를 진행했습니다. 인터뷰에서는 어린 시절, 핵심 기억, 직업, 이민 정책에 대한 생각 등 다양한 주제를 다뤘습니다. 이 인터뷰 데이터를 LLM과 결합하여 각 개인을 시뮬레이션하는 AI 에이전트를 생성했습니다. 검증 방법:
합성 소비자 vs 실제 소비자, 응답이 진짜 비슷한지 어떻게 확인할까요?
합성 소비자(Synthetic Consumer) 기술의 핵심은 합성 소비자가 내놓은 응답이 실제 소비자의 응답과 얼마나 비슷한지 검증하는 것입니다. 보통 해외 논문이나 기업에서는 두 응답의 유사성을 비교할 때 스피어만 상관계수(Spearman Correlation)라는 지표를 주로 사용합니다. 하지만 저희 인텔리시아는 훨씬 더 정교한 검증을 위해, 응답의 다양한 특성을 반영하는 5가지 지표를 함께 활용하고 있습니다. 오늘은 저희가 사용하는 이 지표들에 대해 설명드리고자 합니다. 종합 유사도 지표(CSI) 구성을 위한 5가지 핵심 지표 저희는 설문에 포함된 모든 문항에 대해서 합성 소비자와 실제 소비자가 각 보기를 선택한 비율이 얼마나 차이 나는지를 분석하여 유사도를 측정합니다. JS Similarity (Jensen-Shannon Similarity) "응답 분포 모양이 얼마나 똑같은가?" 이 지표는 합성 소비자의 응답 분포가 실제 소비자의 응답 분포와 얼마나 닮았는지를 측정합니다. 기존에 쓰이던 방식(KL-Divergence)의 단점을 보완하여, 두 응답 분포의 닮은 정도를 0과 1 사이의 숫자로 알기 쉽게 나타낸 것입니다. 이 값이 높을수록 합성 소비자가 어느 한쪽으로 치우치지 않고, 실제 사람들의 전체적인 응답 분포 모양을 완벽하게 재현했음을 의미합니다. Spearman Correlation (스피어만 상관계수) "응답 항목 간의 순위를 정확히 맞추었는가?" 응답의 구체적인 수치보다는 '순위'가 맞는지 확인하는 지표입니다. 소비자 조사에서는 정확한 응답 비율만큼이나 "A보다 B를 더 좋아한다"는 서열 관계가 중요한 경우가 많습니다. 스피어만 상관계수는 합성 소비자가 실제 소비자들이 느끼는 제품이나 속성 간의 우열 관계, 그리고 선호 순위를 얼마나 잘 따라 했는지 평가하는 데 최적화된 지표입니다. Pearson Correlation (피어슨 상관계수) "데이터가 움직이는 방향과 강도가 일치하는가?" 두 변수 간의 선형적인 관계를 보는 가장 대표적인 통계 지표입니다. 실제 소비자의 응답률이 높은 항목은 합성 소비자도 높게, 낮은 항목은 낮게 응답하는지를 봅니다. 스피어만 상관계수가 '순서'를 본다면, 피어슨 상관계수는 '값의 추세'를 봅니다. 예를 들어 실제 소비자의 선택 비율이 10%에서 20%로 늘어날 때, 합성 소비자도 그에 비례해서 수치가 증가하는지를 확인하는 것입니다. 이 점수가 높다는 것은 합성 소비자가 실제 소비자의 응답 변화 패턴을 그대로 따라가고 있음을 의미합니다. 1 - MAE (Mean Absolute Error 역보정) "평균적으로 오차의 크기가 얼마나 작은가?" 평균 절대 오차(MAE)는 예측값과 실제값 사이의 오차가 평균적으로 얼마나 되는지를 나타냅니다. 저희는 이 오차 값을 '정확도' 개념으로 바꾸어(역보정) 사용합니다. 이 지표는 합성 소비자의 응답이 실제 소비자 응답과 비교했을 때, 평균적으로 얼마나 가까운지를 직관적으로 보여줍니다.
Made with Slashpage