Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới. Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận. Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.
Căn chỉnh tầm nhìn với ngôn ngữ: Xây dựng đồ thị tri thức đa phương thức không cần chú thích cho lý luận LLM nâng cao
Created by
Haebom
Tác giả
Junming Liu, Siyuan Meng, Yanting Gao, Song Mao, Pinlong Cai, Guohang Yan, Yirong Chen, Zilin Bian, Ding Wang, Botian Shi
Phác thảo
Trong bài báo này, chúng tôi đề xuất một đồ thị tri thức tích hợp ngôn ngữ thị giác (VaLiK) để giải quyết các vấn đề về kiến thức chưa hoàn chỉnh và các hiện tượng ảo giác trong suy luận đa phương thức của các mô hình ngôn ngữ quy mô lớn (LLM). VaLiK căn chỉnh các đặc điểm hình ảnh với văn bản bằng cách sử dụng các mô hình ngôn ngữ thị giác (VLM) được đào tạo trước và chuyển đổi chúng thành các mô tả chứa thông tin cụ thể về hình ảnh. Ngoài ra, nó loại bỏ hiệu quả các nhiễu phát sinh trong quá trình căn chỉnh đặc điểm thông qua cơ chế xác minh độ tương đồng đa phương thức. Nó có thể xây dựng các MMKG chỉ bằng các mô tả được cải thiện mà không cần chú thích hình ảnh thủ công. Nó cải thiện đáng kể hiệu quả lưu trữ và duy trì các liên kết thực thể-hình ảnh trực tiếp so với các phương pháp xây dựng MMKG hiện có. Kết quả thực nghiệm trên các tác vụ suy luận đa phương thức cho thấy các LLM sử dụng VaLiK vượt trội hơn các mô hình tiên tiến hiện có.
Takeaways, Limitations
•
Takeaways:
◦
Chúng tôi trình bày một phương pháp mới để xây dựng MMKG hiệu quả bằng cách tận dụng VLM được đào tạo trước.
◦
Cải thiện hiệu suất suy luận LLM bằng cách tận dụng thông tin hình ảnh mà không cần chú thích thủ công.
◦
Cải thiện hiệu quả lưu trữ và chức năng liên kết thực thể-hình ảnh so với MMKG hiện tại.
◦
ĐạT được kết quả vượt trội hơn hiệu suất của các mô hình tiên tiến hiện có trên các tác vụ suy luận đa phương thức.
•
Limitations:
◦
Hiệu suất của phương pháp đề xuất có thể phụ thuộc vào hiệu suất của VLM được sử dụng.
◦
Có thể tối ưu hóa quá trình căn chỉnh tính năng và lọc nhiễu.
◦
Cần đánh giá hiệu suất tổng quát trên nhiều loại dữ liệu đa phương thức khác nhau.