Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Sự khuếch tán trên các mã hóa mô hình ngôn ngữ để tạo ra trình tự protein

Created by
  • Haebom

Tác giả

Viacheslav Meshchaninov, Pavel Strashnov, Andrey Shevtsov, Fedor Nikolaev, Nikita Ivanisenko, Olga Kardymon, Dmitry Vetrov

Phác thảo

DiMA, một khuôn khổ khuếch tán tiềm ẩn sử dụng biểu diễn mô hình ngôn ngữ protein, trình bày một phương pháp luận mạnh mẽ, có thể khái quát hóa trên nhiều bộ mã hóa protein (tham số từ 8M đến 3B). So với các mô hình ngôn ngữ tự hồi quy, khuếch tán rời rạc và nhất quán dòng chảy hiện có, DiMA luôn hoạt động tốt trong các thí nghiệm mở rộng sử dụng nhiều biểu diễn protein (ESM-2, ESMc, CHEAP, SaProt) và nhiều chỉ số đánh giá khác nhau (chất lượng, tính đa dạng, tính mới lạ và tính đồng nhất phân phối), tạo ra các trình tự protein mới, chất lượng cao và đa dạng. DiMA cũng hỗ trợ các tác vụ sinh sản có điều kiện, chẳng hạn như tạo họ protein, tạo khung và lấp đầy motif, và thiết kế trình tự đặc hiệu theo nếp gấp.

Takeaways, Limitations

_____T99736____:
ĐâY là một trong những ứng dụng thành công đầu tiên của mô hình khuếch tán liên tục vào thiết kế trình tự protein.
ĐạT được hiệu suất cao nhất quán khi sử dụng cùng một kiến ​​trúc và phương pháp đào tạo cho nhiều bộ mã hóa và biểu diễn protein khác nhau.
Phương pháp này vượt trội hơn các phương pháp hiện có như mô hình tự hồi quy, khuếch tán rời rạc và mô hình nhất quán dòng chảy.
Nó cung cấp các chức năng đa dạng hỗ trợ nhiều tác vụ tạo ra có điều kiện khác nhau như tạo ra họ protein và khung mô-típ.
Nó cung cấp những hiểu biết mới về kiến ​​trúc và khả năng ứng dụng thực tế vào lĩnh vực thiết kế protein.
Limitations:
Bài báo này không đề cập đến Limitations cụ thể. Có thể cần thêm các thí nghiệm hoặc phân tích để giải quyết những vấn đề này (ví dụ: khả năng mở rộng, chi phí tính toán, giới hạn hiệu suất đối với các cấu trúc protein cụ thể, v.v.).
👍