본 논문은 부도 시 손실(LGD) 모델링에서 발생하는 주요 데이터 품질 문제를 다룬다. 특히, 사용 가능한 훈련 데이터의 90%가 실제 회수 결과가 아닌 부도 전 대차대조표를 기반으로 한 추정치로 구성되어 있다는 점에 주목한다. 이러한 혼합된 데이터 구조가 재귀적 분할 방법의 체계적인 실패를 유발하며, Random Forest가 테스트 데이터에서 음수 r-제곱(-0.664)을 기록하는 결과를 보였다. Shannon 엔트로피 및 상호 정보를 기반으로 한 정보 이론적 접근 방식은 1,218건의 기업 파산 사례(1980-2023)에서 r-제곱 0.191 및 RMSE 0.284를 달성하여 더 나은 일반화 성능을 보였다. 또한, 레버리지 기반 특징이 1.510 비트의 상호 정보를 포함하는 반면, 규모 효과는 0.086 비트만 기여하여 규모에 따른 회복에 대한 규제적 가정을 반증했다.