본 논문은 방위, 정보, 재난 대응과 같은 중요한 영역에서 작동하는 AI 시스템이 제한된 자원 하에서 드물지만 영향이 큰 사건을 탐지해야 하는 문제를 다룹니다. 기존의 주석 전략은 정보 가치보다 레이블 양을 우선시하여 중복과 노이즈를 발생시키고 모델의 일반화를 제한합니다. 이 논문에서는 레이블 다양성, 모델 기반 선택, 한계 효용 기반 중단을 강조하는 훈련 데이터 전략인 스마트 사이징(smart-sizing)을 제시합니다. 적응형 레이블 최적화(ALO)를 통해 사전 레이블링 분류, 주석자 불일치 분석, 반복적 피드백을 결합하여 모델 성능을 의미 있게 향상시키는 레이블을 우선적으로 처리합니다. 실험 결과, 큐레이션된 데이터의 20~40%로 훈련된 모델이 전체 데이터 기준 모델과 동등하거나 우수한 성능을 보였으며, 특히 희귀 클래스 재현율과 엣지 케이스 일반화에서 두드러졌습니다. 또한, 훈련 및 검증 세트에 포함된 잠재적인 레이블링 오류가 평가를 왜곡할 수 있음을 보여주며, 내장 감사 도구 및 성능 인식 거버넌스의 필요성을 강조합니다. 스마트 사이징은 주석을 미션 결과와 일치하는 피드백 기반 프로세스로 재구성하여 더욱 강력한 모델을 더 적은 레이블로 구축하고, 최첨단 모델 및 운영 시스템을 위한 효율적인 AI 개발 파이프라인을 지원합니다.