Bài báo này trình bày một khuôn khổ đánh giá chuẩn mới có nhận thức về cơ sở hạ tầng để định lượng tác động môi trường của 30 mô hình ngôn ngữ quy mô lớn (LLM) hiện đại được triển khai trong các trung tâm dữ liệu thương mại. Chúng tôi xây dựng khuôn khổ này bằng cách kết hợp dữ liệu hiệu suất API công khai, thoát nước môi trường khu vực và suy luận thống kê về cấu hình phần cứng. Chúng tôi cũng xếp hạng các mô hình dựa trên hiệu suất của chúng so với chi phí môi trường bằng cách sử dụng phân tích phong bì dữ liệu hiệu suất chéo (DEA). Chúng tôi thấy rằng o3 và DeepSeek-R1 là những mô hình tiêu tốn nhiều năng lượng nhất, tiêu thụ hơn 33 Wh, cao hơn 70 lần mức tiêu thụ của GPT-4.1 nano. Ngược lại, Claude-3.7 Sonnet được xếp hạng là mô hình hiệu quả sinh thái nhất. Trong khi GPT-4o chỉ tiêu thụ 0,42 Wh cho một truy vấn ngắn duy nhất, thì nó có tác động môi trường hàng năm đáng kể khi được mở rộng lên 700 triệu truy vấn mỗi ngày. Điều này bao gồm mức tiêu thụ điện của 35.000 hộ gia đình tại Hoa Kỳ, lượng nước ngọt bốc hơi tương đương với nhu cầu nước uống hàng năm của 1,2 triệu người, và lượng khí thải carbon cần thiết để bù đắp cho một khu rừng rộng bằng Chicago. Những kết quả này làm nổi bật nghịch lý rằng mặc dù AI đang ngày càng rẻ hơn và nhanh hơn, nhưng việc áp dụng nó trên toàn cầu lại dẫn đến việc tiêu thụ tài nguyên không cân xứng. Nghiên cứu này cung cấp một phương pháp luận chuẩn hóa và dựa trên kinh nghiệm để đánh giá tính bền vững của việc triển khai LLM, đặt nền tảng cho trách nhiệm môi trường trong tương lai trong phát triển AI và các tiêu chuẩn bền vững.