Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

ArtRAG: Thế hệ tăng cường truy xuất với bối cảnh có cấu trúc để hiểu nghệ thuật thị giác

Created by
  • Haebom

Tác giả

Shuai Wang, Ivona Najdenkoska, Hongyi Zhu, Stevan Rudinac, Monika Kackovic, Nachoem Wijnberg, Marcel Worring

Phác thảo

Bài báo này đề xuất ArtRAG, một khuôn khổ mới để hiểu nghệ thuật từ nhiều góc nhìn khác nhau (văn hóa, lịch sử và phong cách). Để khắc phục những hạn chế của các mô hình ngôn ngữ quy mô lớn đa phương thức (MLLM) hiện có, vốn không nắm bắt đầy đủ các sắc thái của diễn giải nghệ thuật, ArtRAG sử dụng Đồ thị Kiến thức Bối cảnh Nghệ thuật (ACKG) được tạo tự động từ các nguồn văn bản chuyên biệt. ACKG sắp xếp các thực thể như nghệ sĩ, phong trào, chủ đề và sự kiện lịch sử thành một đồ thị có thể diễn giải. Một trình tìm kiếm có cấu trúc đa hạt sẽ chọn các đồ thị con liên quan và hướng dẫn việc tạo MLLM. Kết quả thử nghiệm trên các tập dữ liệu SemArt và Artpedia chứng minh rằng ArtRAG vượt trội hơn các mô hình hiện có, và các đánh giá của con người cho thấy nó tạo ra những diễn giải nhất quán, sâu sắc và giàu tính văn hóa.

Takeaways, Limitations

Takeaways:
Cho phép diễn giải tác phẩm nghệ thuật từ nhiều góc độ khác nhau bằng cách sử dụng biểu đồ kiến ​​thức theo từng lĩnh vực cụ thể.
Khắc phục những hạn chế của MLLM hiện tại và tạo ra những mô tả tác phẩm nghệ thuật phong phú và chính xác hơn.
Chúng tôi trình bày một phương pháp mới kết hợp biểu đồ kiến ​​thức và RAG mà không cần đào tạo.
Đã Xác thực hiệu suất vượt trội so với các mô hình hiện có trên tập dữ liệu SemArt và Artpedia.
Limitations:
Hiệu suất có thể bị ảnh hưởng bởi chất lượng và số lượng nguồn văn bản cụ thể theo từng miền được sử dụng để tạo ACKG.
Khả năng tạo ra mô tả về các tác phẩm của một phong cách hoặc trào lưu nghệ thuật cụ thể có thể phụ thuộc vào độ lệch của tập dữ liệu.
Hạn chế có thể là nó dựa vào thông tin văn bản thay vì sử dụng trực tiếp thông tin hình ảnh.
Tính chủ quan của đánh giá của con người có thể ảnh hưởng đến kết quả.
👍