Để Giải quyết thách thức ngày càng tăng trong việc đánh giá các mô hình ngôn ngữ quy mô lớn (LLM), bài báo này đề xuất một khuôn khổ đánh giá mới, Phương pháp Đánh giá Chuyển đổi Có Cấu trúc (STEM). STEM phân tích các biến thể hiệu suất của các LLM có kiến trúc giống hệt nhau nhưng kích thước tham số khác nhau để xác định các mẫu chuyển đổi có ý nghĩa (STS). Các STS này sau đó được sử dụng để ước tính hiệu suất của các mô hình chưa biết một cách hiệu quả và có thể diễn giải được. Sử dụng mô hình Qwen3, chúng tôi xây dựng một nhóm STS trên sáu điểm chuẩn đa dạng. Kết quả thực nghiệm chứng minh rằng STEM nắm bắt đáng tin cậy các xu hướng hiệu suất của mô hình và khớp với xếp hạng hiệu suất thực tế. Điều này làm nổi bật STEM như một phương pháp thực tế và có khả năng mở rộng để tinh chỉnh và đánh giá LLM độc lập với kiến trúc.