Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Một mô hình ngôn ngữ chung để nhận dạng peptide

Created by
  • Haebom

Tác giả

Jixiu Zhai, Tianchi Lu, Haiti Zhong, Ziyang Xu, Yuhuan Liu, Shengrui Xu, Jingwan Wang, Dan Huang

Phác thảo

PDeepPP là một khuôn khổ học sâu tích hợp cho phép nhận dạng mạnh mẽ các peptide hoạt tính sinh học (BP) và các sửa đổi sau dịch mã (PTM) protein trên một loạt các đặc điểm peptide. Nó được thiết kế bằng cách tích hợp các mô hình ngôn ngữ protein được đào tạo trước hiện có với kiến trúc biến đổi-tích chập lai, và trích xuất một cách có hệ thống các đặc điểm trình tự toàn cục và cục bộ bằng cách tận dụng các tập dữ liệu chuẩn toàn diện và triển khai các chiến lược để giải quyết sự mất cân bằng dữ liệu. Thông qua phân tích mở rộng bao gồm giảm chiều và các nghiên cứu so sánh, PDeepPP chứng minh các biểu diễn peptide mạnh mẽ và có thể diễn giải được, đạt hiệu suất tiên tiến trên 25 trong số 33 nhiệm vụ nhận dạng sinh học. Đặc biệt, nó đạt được độ chính xác cao trong việc nhận dạng kháng khuẩn (0,9726) và vị trí phosphoryl hóa (0,9984), độ đặc hiệu 99,5% trong dự đoán vị trí glycosyl hóa và giảm đáng kể các kết quả âm tính giả trong các nhiệm vụ chống sốt rét. PDeepPP cho phép phân tích peptide chính xác trên quy mô lớn để hỗ trợ nghiên cứu y sinh và khám phá các mục tiêu điều trị mới cho bệnh tật. Tất cả mã, tập dữ liệu và mô hình được đào tạo trước đều có sẵn công khai trên GitHub và Hugging Face.

Takeaways, Limitations

Takeaways:
Cung cấp khả năng nhận dạng mạnh mẽ và chính xác các chức năng peptide và vị trí PTM khác nhau.
ĐạT được hiệu suất tiên tiến trong việc kháng khuẩn, xác định vị trí phosphoryl hóa và dự đoán vị trí glycosyl hóa.
Giải quyết hiệu quả các vấn đề mất cân bằng dữ liệu để cung cấp kết quả đáng tin cậy.
Cung cấp các biểu diễn peptide dễ hiểu để hỗ trợ việc hiểu kết quả.
Nó có tiềm năng đóng góp vào nghiên cứu y sinh và phát triển thuốc mới.
Chúng tôi đã công khai toàn bộ mã và dữ liệu để tăng khả năng tái tạo và mở rộng quy mô nghiên cứu của mình.
Limitations:
Trong 8/33 nhiệm vụ, nó không đạt được hiệu suất tối ưu. Hiệu suất vẫn còn nhiều tiềm năng để cải thiện.
Khả năng khái quát hóa các đặc điểm peptide khác nhau có thể bị ảnh hưởng bởi thành phần của tập dữ liệu. Có thể cần một tập dữ liệu đa dạng hơn.
Có khả năng hiệu suất của một số loại peptide hoặc PTM có thể bị giảm. Cần có thêm các nghiên cứu.
👍