AI 모델은 종종 관심 있는 결과를 예측하는 능력에 따라 평가되지만, 사회적 영향 AI 애플리케이션에서는 개입이 결과에 영향을 미쳐 평가가 편향될 수 있습니다. 무작위 대조 시험(RCT)은 개입을 무작위로 할당하여 대조군 데이터를 사용하여 편향되지 않은 모델 평가를 가능하게 합니다. 그러나 이 접근 방식은 치료군 데이터를 무시하므로 비효율적입니다. 따라서 RCT에 관련된 복잡성과 비용을 고려하여 모든 RCT 데이터를 활용하는 모델 평가 전략을 연구합니다. 먼저, 치료군과 대조군에서 성능 추정치를 단순하게 집계할 때 발생하는 추정 편향을 이론적으로 정량화하고, 이 편향이 잘못된 모델 선택으로 이어지는 조건을 도출합니다. 이러한 이론적 통찰력을 활용하여, 치료군 데이터를 개입이 없는 경우 결과가 발생하거나 발생하지 않을 샘플의 분포를 모방하도록 재가중하는 편향되지 않은 모델 평가 접근 방식인 NPW(Nuisance Parameter Weighting)를 제안합니다. 합성 데이터 세트와 실제 데이터 세트를 사용하여 제안된 평가 접근 방식이 다양한 개입 효과 및 샘플 크기 설정에서 치료군 데이터를 무시하는 표준 접근 방식보다 일관되게 더 나은 모델 선택을 제공함을 보여줍니다.