
Variable | Definition | Key |
survival | Survival | 0 = No, 1 = Yes |
pclass | Ticket class | 1 = 1st, 2 = 2nd, 3 = 3rd |
sex | Sex | |
Age | Age in years | |
sibsp | # of siblings / spouses aboard the Titanic (sister+brother+spouse) | |
parch | # of parents / children aboard the Titanic (parent + chile) | |
ticket | Ticket number | |
fare | Passenger fare | |
cabin | Cabin number | |
embarked | Port of Embarkation | C = Cherbourg, Q = Queenstown, S = Southampton |
일변량 EDA 진행해줘.
범주형, 수치형 변수들의 기술통계량을 테이블로 정리해줘.
기술통계량에는 첨도와 왜도를 포함해줘.
통계량 | Age | Fare | SibSp | Parch | Sex | Pclass | Embarked |
count | 714 | 891 | 891 | 891 | 891 | 891 | 889 |
missing_count | 177 | 0 | 0 | 0 | 0 | 0 | 2 |
unique_values | – | – | – | – | 2 | 3 | 3 |
mean | 29.70 | 32.20 | 0.52 | 0.38 | – | – | – |
std | 14.53 | 49.69 | 1.10 | 0.81 | – | – | – |
min | 0.42 | 0.00 | 0.00 | 0.00 | – | – | – |
25% | 20.12 | 7.91 | 0.00 | 0.00 | – | – | – |
50% | 28.00 | 14.45 | 0.00 | 0.00 | – | – | – |
75% | 38.00 | 31.00 | 1.00 | 0.00 | – | – | – |
max | 80.00 | 512.33 | 8.00 | 6.00 | – | – | – |
skewness (왜도) | 0.39 | 4.79 | 3.69 | 2.75 | – | – | – |
kurtosis (첨도) | 0.18 | 33.20 | 17.73 | 9.80 | – | – | – |
top (최빈값) | – | – | – | – | male | 3 | S |
freq (최빈값 빈도) | – | – | – | – | 577 | 491 | 644 |
기술통계표를 Transpose 해줘다변량 EDA를 진행하려고 해.
어떻게 진행하면 좋을 지 제안해줘.
관계 유형 | 분석 방법 | 목적 |
범주형 vs 범주형 | pd.crosstab, sns.countplot | 성별·등급별 생존률 비교 |
수치형 vs 이진형(Survived) | sns.boxplot, sns.violinplot, sns.histplot | 운임, 나이 분포 차이 확인 |
수치형 vs 수치형 | sns.scatterplot, sns.heatmap | 운임–나이 관계, 상관성 탐색 |
다중 범주 조합 | sns.catplot (hue, col 옵션 활용) | 예: 성별별·등급별 생존률 교차 비교 |
corr = df[["Age", "Fare", "SibSp", "Parch", "Survived"]].corr()
sns.heatmap(corr, annot=True, cmap="coolwarm")df.groupby("Sex")["Survived"].mean()
df.groupby("Pclass")["Survived"].mean()
df.groupby("Embarked")["Survived"].mean()sns.pairplot(df, vars=["Age", "Fare"], hue="Survived", palette="Set2")1번, 2번, 3번을 단계별로 진행하자