Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

TextQuests: Các chương trình LLM về trò chơi điện tử dựa trên văn bản có tốt không?

Created by
  • Haebom

Tác giả

Long Phan, Mantas Mazeika, Andy Zou, Dan Hendrycks

Phác thảo

Bài báo này đề xuất TextQuests, một chuẩn mực mới để đánh giá các tác nhân AI trong môi trường tương tác phức tạp, phản ánh các vấn đề thực tế. Trong khi các chuẩn mực hiện có tập trung vào việc sử dụng công cụ hoặc hiệu suất tác vụ có cấu trúc, TextQuests đánh giá khả năng lập luận tự định hướng dài hạn dựa trên trò chơi viễn tưởng tương tác Infocom. Bằng cách hạn chế việc sử dụng các công cụ bên ngoài, TextQuests tập trung vào việc đánh giá khả năng lập luận theo ngữ cảnh dài hạn vốn có của tác nhân, khả năng học hỏi theo phương pháp thử-sai, và khả năng giải quyết vấn đề bền bỉ. Nó đánh giá khả năng tự định hướng giải quyết vấn đề của tác nhân AI thông qua các trò chơi phức tạp mà người chơi phải mất hơn 30 giờ để hoàn thành. Chúng tôi công bố chuẩn mực tại https://textquests.ai .

Takeaways, Limitations

Takeaways:
Cung cấp chuẩn mực mới để đánh giá khả năng suy luận và giải quyết vấn đề dài hạn của các tác nhân AI trong môi trường thực tế phức tạp.
Bằng cách đánh giá năng lực vốn có của tác nhân mà không cần dựa vào các công cụ bên ngoài, năng lực thực sự của tác nhân AI có thể được đánh giá chính xác hơn.
Tận dụng sự phức tạp của các trò chơi Infocom, chúng tôi cung cấp một môi trường đánh giá rộng có thể đánh giá nhiều kỹ năng giải quyết vấn đề.
Góp phần vào sự phát triển của cộng đồng nghiên cứu AI thông qua việc phát hành chuẩn mực TextQuests.
Limitations:
TextQuest chỉ giới hạn ở các trò chơi dựa trên văn bản, khiến chúng khó áp dụng vào các loại môi trường hoặc phương pháp tương tác khác.
Do trò chơi phức tạp nên việc hoàn thành bài kiểm tra chuẩn có thể tốn nhiều thời gian và nguồn lực.
Có thể cần nghiên cứu thêm về các chỉ số đánh giá và phương pháp đo lường chuẩn mực.
Có khả năng kết quả đánh giá sẽ thiên vị một số loại trò chơi nhất định.
👍