Bài báo này đề cập đến các tín hiệu khen thưởng do con người tạo ra, đóng vai trò quan trọng trong việc điều chỉnh các mô hình sinh sản phù hợp với sở thích của con người. Các phương pháp LLM-as-a-Judge, sử dụng LLM làm người đánh giá, giúp giảm đáng kể chi phí chú thích thủ công, nhưng thường yêu cầu dữ liệu đào tạo chuyên biệt cho từng phương thức rộng lớn và thiếu khả năng khái quát hóa trên nhiều tác vụ đa phương thức khác nhau. Trong bài báo này, chúng tôi đề xuất Flex-Judge, một mô hình đánh giá đa phương thức dựa trên suy luận, có khả năng khái quát hóa mạnh mẽ trên nhiều phương thức và định dạng đánh giá khác nhau bằng cách sử dụng dữ liệu suy luận văn bản tối thiểu. Ý tưởng cốt lõi là các giải thích suy luận văn bản có cấu trúc vốn đã nhúng các mẫu quyết định có thể khái quát hóa, cho phép chuyển giao hiệu quả sang các đánh giá đa phương thức như hình ảnh và video. Kết quả thử nghiệm chứng minh rằng Flex-Judge đạt được hiệu suất cạnh tranh hoặc vượt trội so với các API thương mại hiện đại và các trình đánh giá đa phương thức được đào tạo chuyên sâu, mặc dù được đào tạo với ít dữ liệu văn bản hơn đáng kể. Phát hiện này đặc biệt phù hợp với các phương thức như phân tử, nơi thiếu các tiêu chuẩn đánh giá toàn diện, làm nổi bật giá trị thực tế của nó trong các lĩnh vực hạn chế về nguồn lực. Nghiên cứu này thúc đẩy đáng kể các mô hình đa phương thức có khả năng mở rộng như một thẩm phán bằng cách trình bày giám sát văn bản dựa trên suy luận như một giải pháp thay thế mạnh mẽ và tiết kiệm chi phí cho các phương pháp chú thích chuyên sâu hiện có.