
Variable | Definition | Key |
survival | Survival | 0 = No, 1 = Yes |
pclass | Ticket class | 1 = 1st, 2 = 2nd, 3 = 3rd |
sex | Sex | |
Age | Age in years | |
sibsp | # of siblings / spouses aboard the Titanic (sister+brother+spouse) | |
parch | # of parents / children aboard the Titanic (parent + chile) | |
ticket | Ticket number | |
fare | Passenger fare | |
cabin | Cabin number | |
embarked | Port of Embarkation | C = Cherbourg, Q = Queenstown, S = Southampton |
데이터 전처리가 필요한 부분을 확인해줘. 
컬럼 | 결측 개수 | 비율 | 비고 |
Age | 177 | 약 19.9% | 평균/중앙값/그룹별 평균으로 대체 가능 |
Cabin | 687 | 약 77.1% | 결측률이 매우 높음 → 변수 제거 또는 'Unknown' 처리 고려 |
Embarked | 2 | 약 0.2% | 최빈값(S)으로 대체 가능 |