Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

TASER: Các tác nhân bảng để trích xuất và đề xuất theo sơ đồ

Created by
  • Haebom

Tác giả

Nicole Cho, Kirsty Fielding, William Watson, Sumitra Ganesh, Manuela Veloso

Phác thảo

Bài báo này đề xuất TASER (Table Agents for Schema-guided Extraction and Recommendation), một hệ thống dựa trên tác nhân để trích xuất dữ liệu bảng phi cấu trúc, nhiều trang từ các tài liệu tài chính thực tế. TASER chuyển đổi các bảng phi cấu trúc thành đầu ra được chuẩn hóa, tuân thủ lược đồ bằng cách sử dụng các tác nhân thực hiện phát hiện bảng, phân loại, trích xuất và đề xuất sửa đổi lược đồ. Cụ thể, TASER kết hợp các cải tiến lược đồ thông qua học liên tục, nhấn mạnh hiệu quả của học theo lô quy mô lớn và đạt được cải thiện hiệu suất 10,1% so với các mô hình hiện có như Table Transformer. Hơn nữa, chúng tôi trình bày một bộ dữ liệu bảng tài chính mới, TASERTab, bao gồm 22.584 trang (28.150.449 mã thông báo), 3.213 bảng và tổng giá trị dữ liệu tài sản là 731.685.511.687 đô la.

Takeaways, Limitations

Takeaways:
Cung cấp giải pháp hiệu quả cho vấn đề trích xuất dữ liệu bảng phức tạp và không có cấu trúc từ các tài liệu tài chính thực tế.
Chứng minh tính hiệu quả của hệ thống trích xuất dựa trên tác nhân, được hướng dẫn theo sơ đồ
Nhấn mạnh tầm quan trọng của việc cải thiện hiệu suất và cải thiện lược đồ thông qua việc học tập liên tục.
Cho phép nghiên cứu bằng cách phát hành bộ dữ liệu quy mô lớn, TASERTab, bao gồm dữ liệu tài chính thực tế.
Cải thiện hiệu suất 10,1% so với Table Transformer
Cải thiện đề xuất lược đồ và tăng cường trích xuất tài sản thông qua học tập theo lô quy mô lớn (9,8%).
Limitations:
Thông tin hiện có không đủ để cung cấp mô tả chi tiết về kiến ​​trúc và thuật toán cụ thể của hệ thống TASER.
Cần phân tích sâu hơn về chất lượng và độ lệch của tập dữ liệu TASERTab.
ĐáNh giá hiệu suất tổng quát là cần thiết cho nhiều loại tài liệu tài chính và cấu trúc bảng khác nhau.
Thiếu phân tích so sánh với các hệ thống dựa trên tác nhân khác.
👍