Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Xác minh kế hoạch cho các tác nhân hoàn thành nhiệm vụ cụ thể dựa trên LLM

Created by
  • Haebom

Tác giả

Ananth Hariharan, Vardhan Dongre, Dilek Hakkani-T ur, Gokhan Tur

Phác thảo

Bài báo này đề cập đến vấn đề lập kế hoạch tác vụ dựa trên mô hình ngôn ngữ quy mô lớn (LLM) cho AI đã triển khai và trình diễn con người tương ứng có thể làm giảm chất lượng chính sách do các hành động không cần thiết, khám phá dư thừa và lỗi logic. Để giải quyết vấn đề này, chúng tôi đề xuất một khuôn khổ xác thực lặp lại, trong đó LLM phán đoán phê bình các chuỗi hành động và LLM lập kế hoạch áp dụng các hiệu chỉnh. Điều này tạo ra các quỹ đạo ngày càng sạch hơn và nhất quán về mặt không gian. Không giống như các phương pháp dựa trên quy tắc, nó dựa trên lời nhắc ngôn ngữ tự nhiên, cho phép khái quát hóa rộng rãi trên nhiều loại lỗi, bao gồm các hành động không liên quan, mâu thuẫn và các bước bị thiếu. Trên một tập hành động được chú thích thủ công từ bộ dữ liệu AI triển khai TEACh, khuôn khổ đề xuất đạt được độ thu hồi lên đến 90% và độ chính xác 100% so với bốn LLM tiên tiến (GPT-4-mini, DeepSeek-R1, Gemini 2.5 và LLaMA 4 Scout). Vòng lặp tinh chỉnh hội tụ nhanh chóng, với 96,5% chuỗi chỉ cần ba lần lặp, cải thiện cả hiệu quả thời gian và thành phần hành động không gian. Quan trọng hơn, phương pháp này hỗ trợ nghiên cứu trong tương lai về các hành vi điều chỉnh mạnh mẽ bằng cách bảo tồn các mô hình phục hồi lỗi của con người mà không làm gián đoạn chúng. Bằng cách thiết lập xác thực kế hoạch như một hàm LLM đáng tin cậy cho việc lập kế hoạch không gian và cải thiện hành vi, nó cung cấp một lộ trình có thể mở rộng để có được dữ liệu đào tạo chất lượng cao cho việc học mô phỏng trong AI đã triển khai.

Takeaways, Limitations

Takeaways:
Chúng tôi chứng minh rằng chất lượng của các kế hoạch nhiệm vụ AI có thể được cải thiện thông qua khuôn khổ xác minh kế hoạch lặp đi lặp lại bằng cách sử dụng LLM.
Các phương pháp dựa trên gợi ý ngôn ngữ tự nhiên cho phép khái quát hóa các loại lỗi khác nhau.
Cải thiện hiệu quả về thời gian và tổ chức hành vi không gian.
Góp phần xây dựng các hệ thống mạnh mẽ bằng cách bảo tồn các mô hình phục hồi lỗi của con người.
Cung cấp phương pháp có khả năng mở rộng để tạo dữ liệu đào tạo chất lượng cao cho việc học mô phỏng.
Limitations:
Hiệu suất của khuôn khổ đề xuất có thể phụ thuộc vào hiệu suất của LLM được sử dụng.
Chỉ có kết quả đánh giá cho tập dữ liệu TEACH được trình bày và hiệu suất tổng quát trên các tập dữ liệu khác cần được xác thực thêm.
Cần nghiên cứu thêm để giải quyết vấn đề hiệu suất xử lý các tác vụ phức tạp hoặc các tình huống đặc biệt.
Chúng tôi không đảm bảo loại bỏ hoàn toàn lỗi và một số lỗi vẫn có thể còn tồn tại.
👍