Bài báo này đề cập đến việc thiếu dữ liệu đánh giá có khả năng mở rộng và đáng tin cậy để cải thiện khả năng lập kế hoạch và suy luận của các mô hình ngôn ngữ quy mô lớn (LLM). Để đạt được điều này, chúng tôi lựa chọn một miền phù hợp, tạo quy trình làm việc tự động và trình bày NL2Flow, một hệ thống hoàn toàn tự động để tạo ra các bài toán lập kế hoạch bằng ngôn ngữ tự nhiên, biểu diễn trung gian có cấu trúc và PDDL chính thức. NL2Flow tạo ra một tập dữ liệu gồm 2.296 bài toán có độ khó thấp và đánh giá một số LLM nguồn mở, được điều chỉnh theo chỉ thị mà không cần tối ưu hóa theo tác vụ cụ thể hoặc sửa đổi kiến trúc. Kết quả đánh giá cho thấy mô hình hiệu suất cao nhất đạt tỷ lệ thành công 86% trong việc tạo ra các kế hoạch hợp lệ và 69% trong việc tạo ra các kế hoạch tối ưu cho các bài toán có kế hoạch khả thi. Phân tích hồi quy chứng minh rằng tác động của các đặc điểm của bài toán khác nhau tùy thuộc vào mô hình và thiết kế dấu nhắc. Hơn nữa, chúng tôi nghiên cứu tiềm năng của LLM như một công cụ chuyển đổi ngôn ngữ tự nhiên sang JSON cho các định nghĩa quy trình làm việc và đánh giá hiệu suất dịch của nó trên các mô tả quy trình làm việc bằng ngôn ngữ tự nhiên để tạo điều kiện tích hợp với các công cụ tính toán biểu tượng và các trình lập kế hoạch biểu tượng tiếp theo. Việc chuyển đổi ngôn ngữ tự nhiên thành biểu diễn JSON của bài toán quy trình làm việc mang lại tỷ lệ thành công thấp hơn so với việc tạo trực tiếp một kế hoạch, cho thấy việc phân tích không cần thiết tác vụ suy luận có thể làm giảm hiệu suất và làm nổi bật những lợi thế của các mô hình có khả năng suy luận trực tiếp từ ngôn ngữ tự nhiên đến hành động. Khi suy luận LLM mở rộng quy mô để đáp ứng các vấn đề ngày càng phức tạp, việc hiểu rõ các điểm nghẽn và nguồn lỗi đang phát triển trong các hệ thống này là rất quan trọng.