Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Phân biệt dấu hiệu bằng cách sử dụng mô hình ngôn ngữ lớn

Created by
  • Haebom

Tác giả

JianHe Low, Ozge Mercanoglu Sincan, Richard Bowden

Phác thảo

Bài báo này trình bày một khuôn khổ mới cho việc phát hiện ký hiệu, giúp nhận dạng và định vị các ký hiệu riêng lẻ trong các video ngôn ngữ ký hiệu liên tục, nhằm giải quyết vấn đề thiếu hụt dữ liệu trong dịch thuật ngôn ngữ ký hiệu. Để giải quyết vấn đề về tính linh hoạt từ vựng và sự mơ hồ của các phương pháp phát hiện ký hiệu hiện có, chúng tôi đề xuất một phương pháp tiếp cận không huấn luyện, tích hợp mô hình ngôn ngữ quy mô lớn (LLM). Chúng tôi trích xuất các đặc điểm không gian-thời gian và bàn tay, sau đó so sánh chúng với một từ điển ngôn ngữ ký hiệu lớn bằng cách sử dụng kỹ thuật bẻ cong thời gian động và độ tương đồng cosin. Sau đó, chúng tôi tận dụng LLM để thực hiện việc loại bỏ sự mơ hồ từ vựng theo ngữ cảnh bằng cách sử dụng tìm kiếm chùm tia. Kết quả thử nghiệm trên các tập dữ liệu ngôn ngữ ký hiệu tổng hợp và thực tế cho thấy độ chính xác và độ trôi chảy của câu được cải thiện so với các phương pháp hiện có.

Takeaways, Limitations

Takeaways:
Chúng tôi chứng minh rằng LLM có thể được sử dụng để cải thiện độ chính xác và tính trôi chảy của câu trong quá trình phát hiện ký hiệu ngôn ngữ ký hiệu.
Tăng tính linh hoạt của vốn từ vựng và giảm nhu cầu đào tạo lại mô hình thông qua khuôn khổ không cần học.
Góp phần giải quyết vấn đề thiếu dữ liệu bằng cách sử dụng hiệu quả từ điển ngôn ngữ ký hiệu quy mô lớn.
Tận dụng khả năng nhận biết ngữ cảnh của LLM để giảm thiểu sự mơ hồ trong việc khám phá ký hiệu ngôn ngữ ký hiệu.
Limitations:
Hiệu suất của phương pháp đề xuất có thể phụ thuộc vào hiệu suất của LLM.
Chất lượng của một cuốn từ điển ngôn ngữ ký hiệu lớn có thể có tác động đáng kể đến kết quả.
Cần phải xác nhận thêm hiệu suất tổng quát trong môi trường video ngôn ngữ ký hiệu phức tạp trong thế giới thực.
Sự phụ thuộc vào các tập dữ liệu giới hạn ở các ngôn ngữ cụ thể hoặc phong cách ngôn ngữ ký hiệu.
👍