Bài báo này giới thiệu FGBench, một tập dữ liệu mới chứa 625.000 bài toán suy luận đặc trưng phân tử, nhằm mục đích cải thiện hiệu suất của các mô hình ngôn ngữ quy mô lớn (LLM) tận dụng thông tin nhóm chức năng (FG) trong hóa học. FGBench chú thích và định vị chính xác các nhóm chức năng trong phân tử, củng cố mối liên hệ giữa cấu trúc phân tử và mô tả văn bản, đồng thời tạo điều kiện phát triển các LLM dễ diễn giải và nhận biết cấu trúc hơn. Nó bao gồm các tác vụ hồi quy và phân loại cho 245 nhóm chức năng khác nhau thuộc ba loại (ảnh hưởng của nhóm chức năng đơn lẻ, tương tác nhóm chức năng đa chức năng và so sánh phân tử trực tiếp). Kết quả chuẩn từ các LLM tiên tiến cho thấy các LLM hiện tại gặp khó khăn trong suy luận đặc trưng ở cấp độ nhóm chức năng. Phương pháp luận FGBench được kỳ vọng sẽ đóng vai trò là nền tảng để tạo ra các cặp câu hỏi-trả lời mới với thông tin cấp độ nhóm chức năng, cho phép các LLM hiểu rõ hơn về mối quan hệ chi tiết giữa cấu trúc và tính chất phân tử. Tập dữ liệu và mã đánh giá được công khai trên GitHub.