इस शोधपत्र ने यूरोपीय पेटेंट अटॉर्नी परीक्षा (EQE) के चयनित कार्यों पर लागू विभिन्न ओपन-सोर्स और स्वामित्व वाले बड़े पैमाने के भाषा मॉडल (LLM) के प्रदर्शन का मात्रात्मक मूल्यांकन किया। GPT परिवार, एंथ्रोपिक, डीपसीक और लामा-3 सहित मूल्यांकित मॉडलों में, OpenAI के GPT-4 ने उच्चतम सटीकता (0.82) और F1 स्कोर (0.81) प्राप्त किया, लेकिन विशेषज्ञ-स्तर के प्रदर्शन (0.90) से पीछे रह गया। AWS लामा 3.1 8B और पायथन-आधारित लामा 3.1 8B ने सरल अनुमान लगाने के स्तर पर प्रदर्शन किया। मॉडलों ने पाठ और ग्राफ़िक एकीकरण और स्वरूपण में सीमाएँ भी प्रदर्शित कीं, और विशेषज्ञ मूल्यांकनों ने तार्किक संगति, स्पष्टता और कानूनी आधार के साथ समस्याओं का खुलासा किया। मॉडल आउटपुट तापमान परिवर्तनों और त्वरित अभिव्यक्तियों के प्रति संवेदनशील थे, जो विशेषज्ञ पर्यवेक्षण की आवश्यकता का सुझाव देते हैं।