합성 소비자 vs 실제 소비자, 응답이 진짜 비슷한지 어떻게 확인할까요?
합성 소비자(Synthetic Consumer) 기술의 핵심은 합성 소비자가 내놓은 응답이 실제 소비자의 응답과 얼마나 비슷한지 검증하는 것입니다. 보통 해외 논문이나 기업에서는 두 응답의 유사성을 비교할 때 스피어만 상관계수(Spearman Correlation)라는 지표를 주로 사용합니다. 하지만 저희 인텔리시아는 훨씬 더 정교한 검증을 위해, 응답의 다양한 특성을 반영하는 5가지 지표를 함께 활용하고 있습니다. 오늘은 저희가 사용하는 이 지표들에 대해 설명드리고자 합니다. 종합 유사도 지표(CSI) 구성을 위한 5가지 핵심 지표 저희는 설문에 포함된 모든 문항에 대해서 합성 소비자와 실제 소비자가 각 보기를 선택한 비율이 얼마나 차이 나는지를 분석하여 유사도를 측정합니다. JS Similarity (Jensen-Shannon Similarity) "응답 분포 모양이 얼마나 똑같은가?" 이 지표는 합성 소비자의 응답 분포가 실제 소비자의 응답 분포와 얼마나 닮았는지를 측정합니다. 기존에 쓰이던 방식(KL-Divergence)의 단점을 보완하여, 두 응답 분포의 닮은 정도를 0과 1 사이의 숫자로 알기 쉽게 나타낸 것입니다. 이 값이 높을수록 합성 소비자가 어느 한쪽으로 치우치지 않고, 실제 사람들의 전체적인 응답 분포 모양을 완벽하게 재현했음을 의미합니다. Spearman Correlation (스피어만 상관계수) "응답 항목 간의 순위를 정확히 맞추었는가?" 응답의 구체적인 수치보다는 '순위'가 맞는지 확인하는 지표입니다. 소비자 조사에서는 정확한 응답 비율만큼이나 "A보다 B를 더 좋아한다"는 서열 관계가 중요한 경우가 많습니다. 스피어만 상관계수는 합성 소비자가 실제 소비자들이 느끼는 제품이나 속성 간의 우열 관계, 그리고 선호 순위를 얼마나 잘 따라 했는지 평가하는 데 최적화된 지표입니다. Pearson Correlation (피어슨 상관계수) "데이터가 움직이는 방향과 강도가 일치하는가?" 두 변수 간의 선형적인 관계를 보는 가장 대표적인 통계 지표입니다. 실제 소비자의 응답률이 높은 항목은 합성 소비자도 높게, 낮은 항목은 낮게 응답하는지를 봅니다. 스피어만 상관계수가 '순서'를 본다면, 피어슨 상관계수는 '값의 추세'를 봅니다. 예를 들어 실제 소비자의 선택 비율이 10%에서 20%로 늘어날 때, 합성 소비자도 그에 비례해서 수치가 증가하는지를 확인하는 것입니다. 이 점수가 높다는 것은 합성 소비자가 실제 소비자의 응답 변화 패턴을 그대로 따라가고 있음을 의미합니다. 1 - MAE (Mean Absolute Error 역보정) "평균적으로 오차의 크기가 얼마나 작은가?" 평균 절대 오차(MAE)는 예측값과 실제값 사이의 오차가 평균적으로 얼마나 되는지를 나타냅니다. 저희는 이 오차 값을 '정확도' 개념으로 바꾸어(역보정) 사용합니다. 이 지표는 합성 소비자의 응답이 실제 소비자 응답과 비교했을 때, 평균적으로 얼마나 가까운지를 직관적으로 보여줍니다.