यह शोधपत्र बड़े पैमाने के भाषा मॉडल (एलएलएम) के मूल्यांकन की कठिनाइयों और मौजूदा स्वचालित बेंचमार्किंग विधियों (मानव मूल्यांकन के साथ सहसंबंध का अभाव) की सीमाओं की ओर इशारा करता है, और उपयोगकर्ता-भागीदारी वाले खुले मूल्यांकन क्षेत्र, एलएम क्षेत्र, के विकल्प के रूप में एक नए मूल्यांकन क्षेत्र, जनरेटिव एनर्जी एरिना (जीईए) का प्रस्ताव करता है, जिसमें ऊर्जा खपत की जानकारी शामिल होती है। जीईए में, उपयोगकर्ता दो मॉडलों के उत्तरों की तुलना करते हैं और प्रत्येक मॉडल के लिए ऊर्जा खपत की जानकारी के साथ उनका मूल्यांकन करते हैं। प्रारंभिक परिणाम दर्शाते हैं कि अधिकांश प्रश्नों के लिए, उपयोगकर्ता छोटे, अधिक ऊर्जा-कुशल मॉडल को पसंद करते हैं जब उन्हें अपनी ऊर्जा खपत के बारे में पता होता है। इससे पता चलता है कि उच्च-प्रदर्शन वाले बड़े मॉडल की अतिरिक्त लागत और ऊर्जा खपत उपयोगकर्ताओं द्वारा अनुभव की जाने वाली प्रतिक्रिया की गुणवत्ता में सुधार करने में योगदान नहीं करती है।