자동 평가 지표의 사용이 증가함에 따라 모델 개발 과정에서 의도치 않게 지표를 조작하는 위험(Metric Interference, MINT)이 증가하고 있다. MINT는 모델 조정과 평가에 동일하거나 관련된 지표를 사용하는 것을 의미하며, 시스템 출력이 간섭 지표의 함수가 되어 인간의 판단과의 상관관계가 떨어져 시스템 성능에 대한 과도한 낙관주의를 초래할 수 있다. 본 논문에서는 기계 번역 관련 작업에서 데이터 필터링 및 품질 신호를 사용한 디코딩이라는 두 가지 일반적인 MINT 사례를 분석한다. MINT는 지표가 직접 최적화되지 않더라도 인스턴스 수준 지표 점수를 크게 왜곡한다는 것을 발견했다. 이 문제를 해결하기 위해 MINT 하에서 더욱 신뢰할 수 있는 평가를 위한 MINTADJUST 방법을 제안한다. WMT24 MT 공유 작업 테스트 세트에서 MINTADJUST는 대부분의 언어 쌍에서, 특히 고품질 시스템에 대해 최첨단 지표보다 더 정확하게 번역과 시스템을 순위 지정한다. 또한 MINTADJUST는 주최측이 사용하는 앙상블 방법인 AUTORANK보다 성능이 우수하다.