Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Phân biệt dấu hiệu bằng cách sử dụng mô hình ngôn ngữ lớn

Created by
  • Haebom

Tác giả

JianHe Low, Ozge Mercanoglu Sincan, Richard Bowden

Phác thảo

Bài báo này tập trung vào việc phát hiện dấu hiệu, một nhiệm vụ xác định và định vị các dấu hiệu riêng lẻ trong các video ngôn ngữ ký hiệu liên tục. Phát hiện dấu hiệu đóng một vai trò quan trọng trong việc giải quyết tình trạng thiếu dữ liệu quan trọng trong các nỗ lực dịch ngôn ngữ ký hiệu và mở rộng tập dữ liệu chú thích. Để giải quyết những hạn chế của các phương pháp hiện có, bao gồm tính linh hoạt từ vựng hạn chế và tính mơ hồ cố hữu của các luồng ký hiệu liên tục, chúng tôi trình bày một khuôn khổ mới, không cần đào tạo, tích hợp mô hình ngôn ngữ quy mô lớn (LLM). Khuôn khổ này trích xuất các đặc điểm không gian thời gian và bàn tay và so khớp chúng với một từ điển ngôn ngữ ký hiệu lớn bằng cách sử dụng kỹ thuật bẻ cong thời gian động (DTW) và độ tương đồng cosin. Nó cung cấp tính linh hoạt từ vựng tuyệt vời mà không cần đào tạo lại mô hình và sử dụng LLM để thực hiện phân biệt nghĩa bóng theo ngữ cảnh bằng cách sử dụng tìm kiếm chùm tia. Kết quả thử nghiệm trên các tập dữ liệu ngôn ngữ ký hiệu tổng hợp và thực tế chứng minh độ chính xác và độ trôi chảy của câu vượt trội so với các phương pháp hiện có.

Takeaways, Limitations

Takeaways:
Chúng tôi chứng minh rằng LLM có thể được sử dụng để cải thiện độ chính xác và tính trôi chảy của việc khám phá ngôn ngữ ký hiệu.
Một khuôn khổ không cần đào tạo sẽ tăng tính linh hoạt của vốn từ vựng và giảm nhu cầu đào tạo lại mô hình.
Xử lý hiệu quả nhiều ngôn ngữ ký hiệu khác nhau bằng cách sử dụng từ điển ngôn ngữ ký hiệu lớn.
Cải thiện độ chính xác của nhận dạng ngôn ngữ ký hiệu bằng cách giải quyết sự mơ hồ về ngữ cảnh.
Limitations:
ĐIều này có thể phụ thuộc vào hiệu suất của chương trình Thạc sĩ Luật (LLM). Việc giảm hiệu suất LLM có thể ảnh hưởng trực tiếp đến hiệu suất khám phá ngôn ngữ ký hiệu.
Chất lượng của một từ điển ngôn ngữ ký hiệu lớn có thể ảnh hưởng đến hiệu suất. Việc từ điển không đầy đủ hoặc có lỗi có thể làm giảm độ chính xác.
Cần phải xác nhận thêm hiệu suất tổng quát trong nhiều điều kiện thực tế khác nhau (ánh sáng, nền, v.v.).
Có thể có sự thiên vị đối với một số ngôn ngữ hoặc ngôn ngữ ký hiệu nhất định.
👍