Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới. Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận. Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.
Bài báo này đề xuất Tiêu chuẩn Hiểu Video lấy Âm thanh làm trung tâm (AVUT), một tiêu chuẩn hiểu video tập trung vào thông tin âm thanh. Vượt ra ngoài các phương pháp tiếp cận lấy hình ảnh làm trung tâm hiện có, tiêu chuẩn này nhấn mạnh bối cảnh, tín hiệu cảm xúc và thông tin ngữ nghĩa do âm thanh cung cấp như những yếu tố quan trọng cho việc hiểu video. AVUT bao gồm nhiều nhiệm vụ đánh giá toàn diện khả năng hiểu nội dung âm thanh và tương tác nghe nhìn. Tiêu chuẩn này cũng đề xuất một cơ chế lọc dựa trên hoán vị câu trả lời để giải quyết "vấn đề lối tắt văn bản" gặp phải trong các tiêu chuẩn hiện có, trong đó câu trả lời chỉ có thể được suy ra từ văn bản câu hỏi. Chúng tôi đánh giá nhiều LLM đa phương thức nguồn mở và độc quyền và phân tích những hạn chế của chúng. Bản demo và dữ liệu có sẵn tại https://github.com/lark-png/AVUT .