यह शोधपत्र डीप रीइन्फोर्समेंट लर्निंग (DRL) में अवस्था अमूर्तन दृष्टिकोणों का व्यवस्थित रूप से मूल्यांकन करता है जो क्रिया मेट्रिक्स (विशेष रूप से, समानता मेट्रिक्स) का अनुमान लगाते हैं और उन्हें प्रतिनिधित्व स्थानों पर लागू करते हैं। जबकि पिछले शोध ने कार्य-अप्रासंगिक शोर के प्रति मजबूती का प्रदर्शन किया है, बेहतर मीट्रिक अनुमान सटीकता और प्रदर्शन का स्रोत अस्पष्ट बना हुआ है। यह अध्ययन पाँच हालिया दृष्टिकोणों का बेंचमार्क करता है, जो विभिन्न डिज़ाइन विकल्पों के साथ आइसोमेट्रिक एम्बेडिंग के रूप में वैचारिक रूप से एकीकृत हैं, 20 अवस्था-आधारित और 14 पिक्सेल-आधारित कार्यों (कुल 370 कार्य विन्यास) में विभिन्न शोर सेटिंग्स का उपयोग करते हुए। अंतिम रिटर्न के अलावा, हम एनकोडर की हस्तक्षेप को फ़िल्टर करने की क्षमता को मापने के लिए शोर-निरोध कारक का मूल्यांकन करते हैं। मीट्रिक लर्निंग की प्रभावशीलता को और स्पष्ट करने के लिए, हम एक स्वतंत्र मीट्रिक अनुमान सेटिंग का प्रस्ताव और मूल्यांकन करते हैं जहाँ एनकोडर केवल मीट्रिक हानि से प्रभावित होता है। अंत में, हम पुनरुत्पादन क्षमता को बढ़ाने और भविष्य के मीट्रिक लर्निंग अनुसंधान का समर्थन करने के लिए एक मॉड्यूलर ओपन-सोर्स कोडबेस जारी करते हैं।