यह शोधपत्र प्रत्यक्ष वरीयता अनुकूलन (DPO) को मशीन लर्निंग (ML) में वरीयता अधिगम के दो प्रमुख सिद्धांतों: हानि फलन (सैवेज) और संभाव्य चयन (डोइग्नॉन-फाल्मैग्ने और मशीना) के बीच एक सेतु के रूप में प्रस्तुत करता है। यह सेतु सभी सैवेज हानि फलनों के लिए स्थापित है, और इस सामान्य स्तर पर, यह (i) चयन सिद्धांत में परिहार के लिए समर्थन, (ii) ML संदर्भ में अउत्तल उद्देश्यों के लिए समर्थन, और (iii) मार्जिन और लंबाई संशोधनों सहित, DPO सेटिंग के उल्लेखनीय विस्तारों को निःशुल्क रूप से फ़्रेम करने की क्षमता प्रदान करता है। DPO के विविध अनुप्रयोग क्षेत्रों और वर्तमान रुचि को देखते हुए, और इस तथ्य को देखते हुए कि कई अत्याधुनिक DPO संस्करण इस शोधपत्र के दायरे के एक छोटे से हिस्से पर ही केंद्रित हैं, यह समझना महत्वपूर्ण है कि सामान्य सिद्धांतों के दृष्टिकोण से DPO कैसे काम करता है। इसके अलावा, यह उन कमियों को समझने और उन समाधानों की पहचान करने में मदद करता है जो इस दायरे से बाहर हैं।