Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

PRIX: Học cách lập kế hoạch từ những điểm ảnh thô cho việc lái xe tự động toàn diện

Swin-TUNA: Một phương pháp PEFT mới để phân đoạn hình ảnh thực phẩm chính xác

EarthLink: Một tác nhân AI tự phát triển cho khoa học khí hậu

Proxy thực tế: Tương tác chất lỏng với các đối tượng trong thế giới thực trong MR thông qua các biểu diễn trừu tượng

Tận dụng các tín hiệu đa nguồn và không đồng nhất để phát hiện mệt mỏi

Sự tốt đẹp của phát âm không phân đoạn

Khung ước tính tư thế tương đối thích ứng với điều chỉnh tiếng ồn kép cho các thao tác tiếp cận an toàn

Phối hợp thành phần cho các nhóm nhiều robot với các mô hình ngôn ngữ lớn

Sự khuếch tán vượt trội hơn hồi quy tự động trong các cài đặt dữ liệu bị hạn chế

Nút thắt LLM mới: Quan điểm hệ thống về sự chú ý tiềm ẩn và sự pha trộn của các chuyên gia

EndoControlMag: Hệ thống phóng đại chuyển động mạch máu nội soi mạnh mẽ với chức năng thiết lập lại tham chiếu định kỳ và kiểm soát mặt nạ kép nhận biết mô phân cấp

Mạng nơ-ron đồ thị khoảng cách dài-ngắn và cải thiện chương trình học để nhận dạng cảm xúc trong hội thoại

Omni-Thinker: Mở rộng khái quát hóa liên miền trong LLM thông qua RL đa nhiệm vụ với phần thưởng kết hợp

GCC-Spam: Phát hiện thư rác thông qua GAN, Học tương phản và Mạng tương đồng ký tự

SDSC: Một thước đo nhận biết cấu trúc cho việc học biểu diễn tín hiệu ngữ nghĩa

Các LLM đa ngôn ngữ không phải là những người tư duy đa ngôn ngữ: Bằng chứng từ Đánh giá phép loại suy tiếng Hindi

ĐIều chế sự chú ý động tần số cho dự đoán dày đặc

Khảo sát về học sâu để giải quyết vấn đề hình học

Mô hình nền tảng EEG: Đánh giá quan trọng về tiến độ hiện tại và hướng đi trong tương lai

Inversion-DPO: Đào tạo sau chính xác và hiệu quả cho các mô hình khuếch tán

Khung PBN-RL-XAI để khám phá chiến lược điều trị “chạy trốn” trong bệnh ung thư hắc tố

Nhiệm vụ trước: Nâng cao việc đánh giá mô hình bằng cách xem xét toàn bộ không gian của các nhiệm vụ hạ nguồn

OrQstrator: Một khuôn khổ hỗ trợ AI để tối ưu hóa mạch lượng tử tiên tiến

Một nghiên cứu toàn diện về phân loại đối số dựa trên LLM: từ LLAMA qua GPT-4o đến Deepseek-R1

Các chỉ số cơ học về sự hiểu biết trong các mô hình ngôn ngữ lớn

Thu nhỏ RL thành video dài

Học mô phỏng và điều khiển từ xa song phương nhanh chóng bằng cách sử dụng điều khiển lực không cảm biến thông qua mô hình động lực học chính xác

Bộ mã hóa tự động có mặt nạ cảm nhận được trái tim: Khám phá độ lệch đơn giản cho phân tích điện tâm đồ

SyncMapV2: Phân đoạn không giám sát mạnh mẽ và thích ứng

LLM Web Dynamics: Theo dõi sự sụp đổ của mô hình trong mạng lưới LLM

Tại sao hiệu ứng đánh giá phụ thuộc lớp lại xảy ra với các thuộc tính chuỗi thời gian? Một cuộc điều tra dữ liệu tổng hợp

Khuếch tán và phân tán: Tạo hình ảnh với chính quy hóa biểu diễn

LLM-D12: Thang đo hai chiều của sự phụ thuộc công cụ và quan hệ vào các mô hình ngôn ngữ lớn

MambaNeXt-YOLO: Mô hình không gian trạng thái lai để phát hiện đối tượng theo thời gian thực

PALADIN: Dấu vân tay thần kinh mạnh mẽ cho các mô hình khuếch tán văn bản sang hình ảnh

Học tăng cường trực tuyến dựa trên kết quả: Thuật toán và giới hạn cơ bản

Giải pháp học máy tích hợp trong nền tảng chăm sóc sức khỏe IoT để phân tầng nguy cơ suy tim

Vượt ra ngoài phân tích cấp thấp: Một phương pháp tiếp cận nhanh để học tập hiệu quả trên thiết bị

Máy biến đổi thị giác trong nông nghiệp chính xác: Một khảo sát toàn diện

PerceptionLM: Dữ liệu và Mô hình Truy cập Mở để Hiểu biết Trực quan Chi tiết

Vị trí: Một lý thuyết nhận dạng có cơ sở thực nghiệm sẽ thúc đẩy nghiên cứu học tập tự giám sát

LagKV: Thông tin độ trễ tương đối của bộ nhớ đệm KV cho biết mã thông báo nào quan trọng

Trigger without Trace: Hướng tới cuộc tấn công cửa sau bí mật vào các mô hình khuếch tán văn bản thành hình ảnh

Lấy mẫu Logit thưa thớt: Tăng tốc quá trình chắt lọc kiến thức trong LLM

Căn chỉnh tầm nhìn với ngôn ngữ: Xây dựng đồ thị tri thức đa phương thức không cần chú thích cho lý luận LLM nâng cao

Att-Adapter: Bộ điều hợp khuếch tán T2I đa thuộc tính, mạnh mẽ và chính xác theo từng miền thông qua bộ mã hóa tự động biến thiên có điều kiện

Khi Mô hình Ngôn ngữ Thị giác Lớn Gặp Hình ảnh Viễn thám Lớn: Cắt tỉa Mã thông báo Hướng dẫn Văn bản Thô sang Tinh

Học tập đa góc nhìn mạnh mẽ thông qua sự kết hợp biểu diễn của sự chú ý ở cấp độ mẫu và sự liên kết của nhiễu loạn mô phỏng

Xử lý ảo giác từ các mô hình có điều kiện để tái tạo hình ảnh y tế bằng DynamicDPS

Học máy lượng tử trong y học chính xác và khám phá thuốc -- Một bước ngoặt cho các phương pháp điều trị phù hợp?

Một mô hình ngôn ngữ chung để nhận dạng peptide

ExpliCa: Đánh giá lý luận nhân quả rõ ràng trong các mô hình ngôn ngữ lớn

EVEv2: Đường cơ sở được cải thiện cho các mô hình ngôn ngữ thị giác không cần bộ mã hóa

Căn chỉnh LLM như một phương pháp tối ưu hóa bộ thu thập thông tin: Một góc nhìn về thu thập thông tin

Pulse-PPG: Mô hình nền tảng PPG được đào tạo thực địa nguồn mở dành cho các ứng dụng đeo được trong phòng thí nghiệm và thực địa

Thị trường nhà ở trực tuyến

Học tập và tối ưu hóa tích hợp để quản lý tắc nghẽn và tối đa hóa lợi nhuận trong thị trường điện thời gian thực

Tích hợp bằng chứng vào thiết kế hệ thống hỗ trợ quyết định dựa trên XAI và AI: Khung phương tiện-mục đích cho người dùng cuối trong xây dựng

Thiết kế tham số có thể mở rộng cho mạch lượng tử siêu dẫn với mạng nơ-ron đồ thị

Khảo sát về Nhận dạng Nguyên nhân Sự kiện: Phân loại, Thách thức, Đánh giá và Triển vọng

Máy hiệu chỉnh thần kinh không được xếp hạng

Hướng tới sự tổng quát hóa đa phương thức y tế 3D phổ quát thông qua việc học biểu diễn bất biến cá nhân hóa

Nguyên thủy đa tạp chuyển động khả vi để tạo ra chuyển động phản ứng dưới các ràng buộc động học

Tinh chỉnh bậc không của LLM trong không gian con ngẫu nhiên

RUMI: Lục lọi bằng cách sử dụng thông tin lẫn nhau

Máy thần kinh không xếp hạng

VolDoGer: Bộ dữ liệu được LLM hỗ trợ cho việc khái quát hóa miền trong các tác vụ ngôn ngữ thị giác

Phát hiện sự trôi dạt khái niệm không giám sát từ các biểu diễn học sâu theo thời gian thực

Một khuôn khổ đánh giá đa diện để đánh giá dữ liệu tổng hợp được tạo ra bởi các mô hình ngôn ngữ lớn

DualXDA: Hướng tới việc phân bổ dữ liệu thưa thớt, hiệu quả và dễ giải thích trong các mô hình AI lớn

ĐịNh lượng tính độc đáo và tính chia rẽ trong bài phát biểu của Tổng thống

DocTER: Đánh giá việc chỉnh sửa kiến thức dựa trên tài liệu

Học các khái niệm có thể định nghĩa trong logic bậc nhất với đếm

Nhận biết và thu thập các hình dạng giao cắt đơn yếu trên cây

Compliance Brain Assistant: AI đàm thoại hỗ trợ các nhiệm vụ tuân thủ trong môi trường doanh nghiệp

Học các phép trừu tượng thời gian thông qua các phép đồng cấu biến thể trong các MDP trừu tượng được tạo ra bởi tùy chọn

Khi Quyền Tự chủ Trở nên Bất ổn: Chuẩn bị cho Rủi ro Thông đồng Nhiều tác nhân trong Hệ thống Xã hội

Một khuôn khổ tích hợp của kỹ thuật nhanh chóng và đồ thị kiến thức đa chiều để phân tích tranh chấp pháp lý

DisMS-TS: Loại bỏ các tính năng đa thang đo dư thừa cho phân loại chuỗi thời gian

Bị làm sai lệch bởi lý luận: Các mô hình ngôn ngữ lý luận trở thành kẻ đi nhờ xe trong các trò chơi hàng hóa công cộng

ĐịNh hình chùm tia và phân bổ tài nguyên để giảm thiểu độ trễ trong hệ thống OFDM hỗ trợ RIS

Khả năng ảnh hưởng của sự khác biệt thần kinh như một giải pháp dự phòng cho vấn đề căn chỉnh AI

EducationQ: Đánh giá năng lực giảng dạy của LLM thông qua khuôn khổ đối thoại đa tác nhân

SuperARC: Một bài kiểm tra bất khả tri cho trí thông minh hẹp, chung và siêu việt dựa trên các nguyên tắc nén đệ quy và xác suất thuật toán

IPCGRL: Học tăng cường hướng dẫn bằng ngôn ngữ để tạo ra cấp độ thủ tục

OR-LLM-Agent: Tự động hóa mô hình hóa và giải quyết các vấn đề tối ưu hóa nghiên cứu hoạt động bằng LLM suy luận

Lý luận hóa học trong LLM mở ra chiến lược lập kế hoạch tổng hợp và làm sáng tỏ cơ chế phản ứng

BEARCUBS: Một chuẩn mực cho các tác nhân web sử dụng máy tính

Từ Giả thuyết đến Xuất bản: Khảo sát Toàn diện về Hệ thống Hỗ trợ Nghiên cứu do AI thúc đẩy

HPS: Lấy mẫu sở thích cứng để căn chỉnh sở thích của con người

Phương pháp khen thưởng khác biệt cho thuật toán ra quyết định hợp tác đa phương tiện dựa trên học tăng cường

Truy xuất các lớp lệnh nhân quả có cơ sở kiến thức không nhất quán

Về cấu trúc nguồn gốc trò chơi và ứng dụng của nó

I-CEE: Điều chỉnh các giải thích về mô hình phân loại hình ảnh theo chuyên môn của người dùng

SIDA: Thích ứng miền Zero-shot điều khiển bằng hình ảnh tổng hợp

Tổng hợp phần mềm 3D được hướng dẫn bởi biểu diễn trung gian ràng buộc-biểu đạt

Di chuyển ra ngoài: Hợp tác giữa con người và AI dựa trên nền tảng vật lý

SynC: Tinh chỉnh bộ dữ liệu chú thích ảnh tổng hợp với ánh xạ một-nhiều để chú thích ảnh không cần chụp

ĐếM SMT gần đúng ngoài miền rời rạc

DRWKV: Tập trung vào các cạnh của vật thể để cải thiện hình ảnh thiếu sáng

Inversion-DPO: Đào tạo sau chính xác và hiệu quả cho các mô hình khuếch tán

Created by

Haebom

Tác giả

Zejian Li, Yize Li, Chenye Meng, Zhongni Liu, Yang Ling, Shengyuan Zhang, Quảng Dương, Changyuan Yang, Zhiyuan Yang, Lingyun Sun

Phác thảo

Trong bài báo này, chúng tôi đề xuất Inversion-DPO, một khuôn khổ mới để căn chỉnh các mô hình khuếch tán (DM). Các phương pháp hiện có gặp phải những vấn đề như chi phí tính toán cao cho việc học mô hình phần thưởng, độ chính xác và hiệu quả huấn luyện mô hình thấp. Inversion-DPO bỏ qua việc học mô hình phần thưởng bằng cách tái cấu trúc Tối ưu hóa Ưu tiên Trực tiếp (DPO) bằng cách sử dụng nghịch đảo DDIM. Chúng tôi trình bày một mô hình huấn luyện hậu kỳ mới bằng cách thực hiện lấy mẫu xác suất hậu nghiệm khó trong DPO khuếch tán thông qua nghịch đảo xác định từ các mẫu thắng và thua thành nhiễu. Điều này cải thiện đáng kể độ chính xác và hiệu quả mà không cần mô hình phần thưởng. Chúng tôi áp dụng Inversion-DPO cho các tác vụ tạo văn bản thành hình ảnh và tạo hình ảnh phức tạp, đồng thời chứng minh những cải tiến về hiệu suất so với các phương pháp hiện có, thể hiện khả năng tạo ra hình ảnh chất lượng cao và nhất quán phức tạp. Đối với quá trình tạo hình ảnh phức tạp sau huấn luyện, chúng tôi xây dựng một tập dữ liệu ghép đôi mới chứa 11.140 chú thích cấu trúc phức tạp và điểm số toàn diện. Inversion-DPO trình bày một phương pháp mới để căn chỉnh mô hình khuếch tán hiệu quả và chính xác, đồng thời tăng khả năng ứng dụng của nó cho các tác vụ tạo hình ảnh thực tế phức tạp. Mã có thể được tìm thấy tại https://github.com/MIGHTYEZ/Inversion-DPO .

GitHub - MIGHTYEZ/Inversion-DPO

Contribute to MIGHTYEZ/Inversion-DPO development by creating an account on GitHub.

github.com

Takeaways, Limitations

•

Takeaways:

◦

Chúng tôi trình bày một phương pháp mới để thực hiện căn chỉnh các mô hình khuếch tán một cách hiệu quả mà không cần học mô hình phần thưởng.

◦

ĐạT được độ chính xác và hiệu quả đào tạo được cải thiện so với các phương pháp hiện có.

◦

Cải thiện hiệu suất tạo hình ảnh chất lượng cao cho các tác vụ phức tạp như tạo hình ảnh tổng hợp.

◦

Cung cấp bộ dữ liệu ghép nối mới để tạo hình ảnh tổng hợp.

•

Limitations:

◦

Cần nghiên cứu thêm về hiệu suất tổng quát của phương pháp đề xuất.

◦

Cần có các nghiên cứu so sánh hiệu suất và khả năng áp dụng cho nhiều nhiệm vụ khác nhau.

◦

Những hạn chế có thể có về quy mô và tính đa dạng của tập dữ liệu được ghép nối.

Xem PDF

Made with Slashpage