본 논문은 인공지능 시스템 개발 및 배포 시 지속가능성과 효율성이 중요해짐에 따라, 기존의 표준화된 모델 독립적 평가 프로토콜의 부재를 지적한다. 단기적인 자원 사용량 측정 및 배치 학습 환경에 치중된 현재 평가 방식은 실제 AI의 장기적인 생애 주기를 반영하지 못한다. 이에 본 연구는 배치 및 스트리밍 학습 시나리오 모두에 적용 가능한 ML 모델의 장기적 지속가능성을 평가하기 위한 포괄적인 평가 프로토콜을 제안한다. 다양한 분류 작업과 여러 모델 유형에 대한 실험을 통해, 전통적인 정적 훈련-테스트 평가가 변화하는 데이터 및 반복적인 모델 업데이트 하에서 지속가능성을 정확하게 파악하지 못함을 입증한다. 또한, 더 높은 환경 비용이 성능 향상으로 이어지지 않는 경우가 많음을 보여준다.