본 논문은 대규모 텍스트 임베딩 벤치마크(MTEB)의 지속적인 재현성과 확장성을 보장하기 위한 엔지니어링 측면에 초점을 맞추고 있다. 데이터셋 무결성 검증, 테스트 자동 실행, 벤치마크 결과의 일반화 가능성 평가를 위한 강력한 지속적 통합 파이프라인 유지를 위한 접근 방식을 제시한다. 재현성과 사용성을 향상시키는 설계 선택을 자세히 설명하고, 커뮤니티 기여 처리 및 새로운 작업과 데이터셋을 사용한 벤치마크 확장 전략을 논의한다. 이러한 엔지니어링 관행은 MTEB의 규모를 확장하고 품질을 유지하며, 궁극적으로 해당 분야의 관련성을 유지하는 데 중요한 역할을 했다. 머신러닝 평가 프레임워크에서 재현성과 사용성을 보장하는 데 어려움을 겪는 벤치마크 관리자에게 귀중한 통찰력을 제공한다.