8-2. 회귀분석 실습

"광고 데이터로 회귀분석·MMM 맛보기"

1. 데이터 소개

데이터 이름: Product Advertising Data
목적:
여러 광고 채널별 비용과 제품 판매량의 관계를 분석해 보는 연습
간단한 회귀분석·예측 모델 실습
실습 파일 다운로드

2. 컬럼 설명

TV: TV 광고비
Billboards: 옥외(빌보드) 광고비
Google_Ads: 구글 광고비
Social_Media: SNS 광고비
Influencer_Marketing: 인플루언서 마케팅 비용
Affiliate_Marketing: 제휴 마케팅 비용
Product_Sold: 해당 조건에서 팔린 제품 수량(타깃 변수)
💬
<목표>
어떤 종류의 광고비(TV, 빌보드, 구글, 소셜미디어 등)가 판매량(Product_Sold)에 더 많은 영향을 미쳤을까?
광고 캠페인의 효과를 분석하여 최적의 광고 예산 전략 수립
마케팅 캠페인의 성과를 예측하여 최적의 캠페인 전략 수립

3. 실습

1.
각 광고 채널과 판매량(Product_Sold) 사이 상관관계 보기
2.
단순/다중 회귀분석으로 "광고비 → 판매량" 관계 모델 만들기
3.
어떤 채널이 판매에 가장 큰 영향을 주는지 비교
4.
광고비를 조정했을 때 예상 판매량을 예측해 보기(예산 최적화 자동 계산기)

4. 실습 순서

1.
데이터 불러오기 (CSV 읽기)
2.
기초 통계량·히스토그램·페어플롯으로 EDA
변수별 히스토그램, 페어플롯 (광고비 ↔ 판매량 관계 시각화), 상관관계 히트맵 그려줘. - 변수별 히스토그램은 한 장짜리 이미지(합성형)으로 시각적으로 통합해서 그려줘. - 히스토그램은 2열로 배치해주고, 막대 간격을 표시해서 가독성을 높여줘.
히스토그램
Pair Plot (산점도)
상관계수 히트맵
아래와 같은 복합형 그래프를 그리고 싶다면 Gemini 활용
복합형 시각화 제작 Prompt
여러 변수로 구성된 pairplot과 상관계수 히트맵을 같은 캔버스 안에 정확한 배치로 결합한 연구용 시각화를 만들어줘. 대각선(diagonal)을 기준으로 아래 삼각형(lower triangle)에는 실제 pairplot 구조처럼 산점도(scatter plot)를 배치하고, 대각선에는 각 변수의 단변량 분포를 나타내는 히스토그램 또는 KDE 곡선을 넣어줘. 대각선 위쪽(upper triangle)은 상관계수 히트맵으로 채우고, 각 셀에는 상관계수를 소수점 둘째 자리까지 숫자로 표시해줘. 좌표축 라벨은 TV, Billboards, Google_Ads, Social_Media, Influencer_Marketing, Affiliate_Marketing, Product_Sold 로 정확히 넣어줘. 산점도는 랜덤 패턴이 아니라 '두 변수 모두 증가할수록 점이 퍼지는 약한 양의 상관관계'를 가진 실제 데이터 분포처럼 표현해줘. 히트맵 색상은 coolwarm 또는 viridis 계열의 연속적인 colormap을 사용하고, 1에 가까울수록 진하게 표현해줘. 전체 구성은 seaborn pairplot 스타일과 논문용 correlation matrix figure를 결합한 형태로, 고해상도이고 깔끔하게 만들어줘. 중요: * 대각선 아래는 반드시 산점도만 넣어야 하고, 히스토그램이 들어가면 안 돼. * 대각선 위는 반드시 히트맵이어야 하고 산점도가 들어가면 안 돼. * 산점도는 각 변수 쌍마다 실제로 서로 다른 패턴처럼 보여야 해. * 히트맵과 산점도 영역이 섞이지 않도록 격자(grid) 배치를 명확하게 표현해줘
3.
상관관계 분석
Basic
상관관계 분석해줘
Expert
## 📌 **상관관계 분석해줘** **[역할 부여]** 당신은 기업의 **수석 데이터 마케팅 전략가(Chief Marketing Strategist)**입니다. 경영진(C-Level)이 내년도 광고 예산을 최적화할 수 있도록, `Advertising_Data.csv`를 분석하여 **의사결정 중심 보고서**를 작성해주세요. --- ## **[분석 지침]** 단순 수치 나열이 아니라 **‘So What?’**, 즉 전략적 의미 도출에 초점을 맞춰 주세요. 반드시 아래 분석 요소를 포함하십시오: ### 1) **데이터 분석** * `Product_Sold`를 목표 변수로 설정하고 **Pearson·Spearman 상관계수** 계산 * 방향성(양/음)과 강도 분류: * Strong (|r| ≥ 0.5) * Moderate (0.3 ≤ |r| < 0.5) * Weak (|r| < 0.3) * 변수 간 **다중공선성(Multicollinearity)** 진단 * 실무 관점에서 **‘통계적으로 유의하지만 실질 영향이 낮은 채널’**도 명확히 구분 ### 2) **시각화(필수)** * 전체 변수 상관구조 **히트맵(고해상도, 논문 스타일)** * 판매량과 가장 상관 높은 **Top 3 채널 산점도 + 회귀선** --- ## **[보고서 출력 형식]** ### **1. Executive Summary (경영진 요약)** * 전체 분석을 관통하는 핵심 결론(1문장) * 즉시 실행해야 할 예산 재배치 제안(Key Action Item) ### **2. Key Insights & Data Evidence** * 상관계수 기반 핵심 발견 4–6개 * Pearson/Spearman 비교를 통한 관계의 신뢰도 평가 * 영향이 낮은 채널과 이유 명확화(Weak correlation) ### **3. Channel Impact Ranking (광고 채널 영향력 순위)** * Tier 1: 핵심 매출 드라이버 * Tier 2: 보조적 기여 채널 * Tier 3: ROI 낮은 채널(재검토 필요) ### **4. Strategic Recommendations (전략 제안)** * **Budget Allocation:** 증액/유지/감액을 명확히 제안 * **Action Plan:** 채널별 ROI·퍼널 상 위치 등을 고려한 실무 전략 (예: “Google Ads는 상관 약함 → 전환 기반 구조 재설계 필요”) ### **5. Risk & Caveats (리스크 및 한계)** * 다중공선성 여부 * 상관분석의 한계(인과관계 아님, 외부 변수 부재 등) * 의사결정 시 추가로 확인해야 할 부분
💬
GPT - 상관관계 분석 결과

📌 Executive Summary (핵심 요약)

Affiliate Marketing과 Billboards가 판매량(Product_Sold)에 가장 강한 양의 상관관계를 보이며,
디지털 채널 중에서는 Social Media가 가장 영향력이 큽니다.
Google Ads와 Influencer Marketing은 상관도가 약해 예산 효율성이 낮을 가능성이 있습니다.

📊 Key Insights (핵심 발견사항)

1) 가장 영향력 큰 요인: Affiliate Marketing (Pearson 0.612 / Spearman 0.620)

전체 변수 중 판매량과의 연관성이 가장 높음
제휴 채널의 매출 기여도가 크며, ROI 기대치가 가장 높음

2) Billboards(옥외광고)는 오프라인 중 가장 효율적 (0.481 / 0.468)

전통 매체임에도 불구하고 강한 양의 상관
브랜드 노출 기반 캠페인이 실매출로 이어지는 구조로 해석 가능

3) Social Media는 디지털 중 영향력 1위 (0.401 / 0.385)

소셜 채널의 캠페인이 실제 구매 전환에 일정 수준 기여
Digital 퍼포먼스 채널과 브랜드 캠페인 사이의 중간 역할 가능

4) TV(0.374)·Google Ads(0.204)는 영향이 제한적

TV는 긍정 상관이나 강도는 중간 수준
Google Ads는 약한 상관 → 광고비 증가 대비 매출 개선 효과가 제한적일 가능성

5) Influencer Marketing은 매우 약함 (0.141 / 0.121)

영향력 거의 없음
채널 전략 재검토 필요 (현 구조에서는 적합하지 않을 가능성 높음)

6) 다중공선성 위험은 낮음

상관구조 전반적으로 낮아 채널 간 예산 중복투자 리스크 작음
독립적 채널 운영이 가능함

🥇 Channel Impact Ranking (판매량 기여 가능성 순위)

(Pearson 기준, Spearman과 일관성 확인)
1.
Affiliate Marketing — 매우 강함
2.
Billboards — 중~강
3.
Social Media — 중간
4.
TV — 중간 이하
5.
Google Ads — 약함
6.
Influencer Marketing — 매우 약함

💼 Strategic Recommendations (예산 배분 및 전략 제안)

1) Affiliate Marketing 예산 확장 (1순위)

높은 상관 → 매출 기여도 확률이 가장 높음
CPA, CPS 기반 성과형 계약 확대 추천

2) Billboards 유지 또는 확대 (2순위)

캠페인 인지도가 매출로 이어지는 구조
지역 타겟팅·고빈도 노출 전략 강화 추천

3) Social Media 강화를 통한 디지털 볼륨 확보 (3순위)

브랜드→전환 사이의 교량 역할
크리에이티브 A/B 테스트, 리타게팅 전략 병행 필요

4) TV는 효율 중심으로 재조정 (4순위)

예산 대비 효과가 제한적 →
→ Prime time/타겟 세그먼트 중심 축소·재배치

5) Google Ads는 전환 기반 재설계 필요 (5순위)

검색/디스플레이 효율성 낮음
키워드 구조, 랜딩페이지, 광고 카피 전면 점검 필요

6) Influencer Marketing은 ROI 검증 후 최소화 (6순위)

상관도 매우 낮음 →
→ 단기 성과 기대 어려움
→ 브랜드 캠페인 목적 외 예산 축소 권장

⚠️ Risk & Caveats (리스크 및 주의사항)

1) 상관관계는 인과관계가 아님

광고비 증가가 매출 증가를 직접 일으킨다고 단정할 수 없음

2) 데이터는 합성(synthetic) 형태이므로 실제 시장과 차이 있을 수 있음

모델링 목적에는 적합하지만 절대적인 시장 판단에는 제한적

3) 광고 채널 간 상호작용(시너지)은 상관분석으로 측정 불가

예: Social Media + Billboards 조합 효과는 별도 회귀/시너지 모델 필요

4) 이상치(outlier)가 Google Ads 등 일부 채널 상관도를 왜곡했을 가능성

추가 분석 필요 (Robust correlation 추천)

5) 단위·비용 구조가 다르면 상관도만으로 예산 효율성 판단은 한계

CPA, ROAS 등 퍼포먼스 지표와 함께 판단 필요
4.
선형 회귀모형 적합 (Product_Sold ~ 광고비들)
[어떤 종류의 광고비(TV, 구글, 소셜미디어 등)가 판매량에 더 많은 영향을 미쳤을까?]
Basic
회귀분석 부탁해
Expert
# 🚀 **회사 보고용 회귀분석 진행해줘 ** **[역할 부여]** 당신은 기업의 **Chief Data & Marketing Strategist(수석 데이터 마케팅 전략가)**입니다. 경영진(C-Level)이 광고 예산을 최적화하고 ROI를 극대화할 수 있도록, 제공된 데이터셋(`Advertising_Data.csv`)을 기반으로 **비즈니스 의사결정 중심의 회귀분석 보고서**를 작성해 주세요. --- # **[분석 지침]** 수치 나열이 아니라, **경영진의 의사결정에 직결되는 시사점(So What?)** 중심으로 분석해 주세요. 아래 분석 항목을 반드시 포함하십시오: ### **1) 회귀모형 구축** * `Product_Sold`(판매량)을 종속변수로 설정 * 모든 광고비 변수(TV, Billboards, Google_Ads, Social_Media, Influencer_Marketing, Affiliate_Marketing)를 독립변수로 한 **다중 선형 회귀모형**을 적합 * 각 변수의 **회귀계수(β), p-value, 95% 신뢰구간, 표준화 계수(standardized coefficients)** 계산 * 모델의 **설명력(R², Adjusted R²)** 보고 ### **2) 모델 진단 (필수)** * **다중공선성(VIF)** 분석 * **잔차분석(정규성·등분산성·독립성)** * **영향력 높은 관찰치(Outlier & Leverage)** 탐색 * 모형의 신뢰도 및 위험요인 평가 ### **3) 중요 변수 도출 (Impact Analysis)** * 표준화 회귀계수 기준 * p-value 기준 * ROI 관점에서 “비용 대비 효과가 큰 채널 vs 비효율 채널” 분류 ### **4) 시각화 포함 (필수)** * 실제 값 vs 예측 값 산점도 (예측 성능 직관화) * 각 독립변수에 대한 **Partial Regression Plot(부분 회귀 플롯)** 또는 coefficient plot * VIF 표 시각화 --- # **[보고서 출력 양식]** ## **1. Executive Summary (경영진 요약)** * 전체 회귀 결과에서 도출되는 핵심 결론 1~2문장 * 즉시 실행해야 하는 핵심 전략(Action Item) 명확히 제시 --- ## **2. Model Performance (모델 성능 요약)** * R² / Adjusted R² * 모형 적합도 해석 (예: “전체 판매량 변동의 약 XX% 설명”) * 예측력과 신뢰도에 대한 짧고 명확한 평가 --- ## **3. Key Drivers & Data Evidence (핵심 요인 분석)** * 회귀계수·표준화 계수·p-value 기반 상위 기여 요인 3~5개 * “영향 큼/중간/약함” 등급 분류 * 통계적으로 유의하나 실무적으로 영향이 미미한 변수 식별 * 다중공선성(VIF)으로 인해 해석 주의가 필요한 변수 언급 --- ## **4. Channel Impact Ranking (채널 영향력 순위)** * 회귀계수와 통계 유의성 기반 Tier 분류 * **Tier 1:** 판매량에 직접 영향력이 큰 핵심 기여 채널 * **Tier 2:** 보조적 역할 * **Tier 3:** ROI 낮아 예산 축소 고려 대상 --- ## **5. Strategic Recommendations (전략적 제안)** * **Budget Allocation:** 채널별 예산 증가/유지/축소에 대한 명확한 제안 * **성능 개선 방안:** * 예: “Google Ads는 영향 약함 → 키워드·랜딩페이지 최적화 필요” * **ROI 기반 실행전략:** * 강한 계수 → 성과형 투자 확대 * 약하거나 음의 계수 → 목적 재정의 또는 구조조정 --- ## **6. Risk & Caveats (리스크 및 한계)** * “상관 ≠ 인과” 문제 * 데이터 품질/표본 크기/이상치 영향 * 다중공선성으로 인한 계수 불안정성 * 비선형성 가능성 및 대안 모델 필요성(Elastic Net, Random Forest 등)
💬
GPT

📌 1. Executive Summary (경영진 요약)

Affiliate Marketing, Billboards, Social Media가 판매량(Product_Sold)에 가장 큰 기여를 하는 핵심 드라이버입니다.
ROI 효율이 낮은 Google Ads와 Influencer Marketing은 구조조정 및 재설계가 필요합니다.
Action Item:
Affiliate Marketing 중심으로 예산 재배치 + Billboards·Social Media 유지·강화 + Google Ads/Influencer 축소 검토

📌 2. Model Performance (모델 성능 요약)

지표
0.647
Adjusted R²
0.639
해석:
전체 판매량 변동의 약 **64.7%**를 광고비 변수로 설명하는 중상위 수준 모델
단일 채널 회귀보다 훨씬 안정성이 높음
실무적 의사결정에 활용 가능한 수준의 예측력 확보

📌 3. Key Drivers & Data Evidence (핵심 요인 분석)

📍 1) 회귀계수(β) + 표준화 계수(β_std) 기반 영향력

변수
표준화계수 β_std
영향력 등급
해석
Affiliate_Marketing
0.652
★★★ 강함
판매량 증가에 가장 큰 기여
Billboards
0.485
★★ 중간~강
오프라인 핵심 성장 동력
Social_Media
0.402
★★ 중간
디지털 전환 기여↑
TV
0.338
★ 중간
영향 있으나 효율은 중간 수준
Google_Ads
0.251
★ 약함
매출 기여 낮음
Influencer_Marketing
0.203
★ 약함
효과 미약
Affiliate > Billboards > Social Media순으로 기여도 명확
➡ Digital 중 Social Media만 의미 있는 기여

📍 2) p-value 기반 유의성 판단

모든 변수 p < 0.05 → 통계적으로 유의
그러나
"유의하다고 강한 영향은 아님" → Google Ads·Influencer는 실무 영향 미약

📍 3) 다중공선성(VIF)

변수
VIF
TV
3.71
Billboards
3.70
Google_Ads
3.55
Social_Media
3.57
Influencer_Marketing
3.02
Affiliate_Marketing
3.35
VIF < 5 전부 허용 범위 → 중복 투자 위험 없음, 해석 안정적.

📌 4. Channel Impact Ranking (채널 영향력 순위)

Tier 1 — 핵심 드라이버 (예산 확대 권장)

1️⃣ Affiliate Marketing
2️⃣ Billboards

Tier 2 — 중추적 보조 채널 (유지·최적화)

3️⃣ Social Media
4️⃣ TV

Tier 3 — 저효율 채널 (축소·재설계 대상)

5️⃣ Google Ads
6️⃣ Influencer Marketing

📌 5. Strategic Recommendations (전략 제안)

1) Budget Allocation (예산 전략)

증액: Affiliate Marketing, Billboards
유지/미세 조정: Social Media, TV
축소/재검토: Google Ads, Influencer Marketing

2) ROI 기반 실행 전략

Affiliate Marketing: 성과형 계약 확대(CPA, CPS 기반) → 단기 매출 상승 극대화
Billboards: 매체 효율 좋음 → 지역 최적화·고빈도 노출 중심
Social Media: 전환율 개선 위해 타겟팅 정밀화 + 크리에이티브 A/B 테스트
Google Ads: 키워드 구조 리빌딩 + 랜딩페이지 재설계 필요
Influencer Marketing: 브랜드 목적 외 실효성 낮음 → 축소 또는 KPI 재정의

📌 6. Risk & Caveats (리스크 및 한계)

상관·회귀계수는 인과관계 보장 X
데이터는 합성 성격 → 실제 시장과 다를 수 있음
이상치가 일부 채널에 영향 가능
비선형 관계 가능성 존재 → Random Forest / Elastic Net 추가 분석 권장

📊 시각화 결과

1) Actual vs Predicted Scatter

산점도는 예측값이 실제값을 비교적 잘 추종하며, 모델의 예측력이 안정적임을 시사함.

2) Coefficient Plot

Affiliate와 Billboards가 가장 높은 양의 회귀계수를 보임.
5.
새 광고비 조합을 넣어 판매량 예측하기
Basic : 엑셀에 회귀식을 하드 코딩해서 사용하는 방법
Product_Sold = β₀ + β₁TV + β₂Billboards + β₃Google_Ads + β₄Social_Media + β₅Influencer + β₆Affiliate Product_Sold = 0.0887 + 2.0011 * TV + 2.9980 * Billboards + 1.4997 * Google_Ads + 2.5000 * Social_Media + 1.1998 * Influencer_Marketing + 3.9989 * Affiliate_Marketing
GPT에게 위 수식으로 된 엑셀 파일을 요청
회귀모델에 맞춰 각 항목에 값을 대입할 수 있도록 엑셀에서 사용할 수 있게 만들고 다운로드할 수 있도록 해줘
예측 판매량 셀에 아래 수식을 입력하고, 광고비 분배(옵션1, 옵션2, 옵션3)를 임의로 진행하면서 예측 판매량을 가늠해 본다
예측 판매량(Product_Sold) = 0.0887
+ 2.0011 * TV
+ 2.9980 * Billboards
+ 1.4997 * Google_Ads
+ 2.5000 * Social_Media
+ 1.1998 * Influencer_Marketing
+ 3.9989 * Affiliate_Marketing
Contact : azureguy@empal.com / azureguy@cau.ac.kr