Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Suy luận xen kẽ để tạo ra văn bản thành hình ảnh tốt hơn

Mạng nơ-ron trọng tâm và mất entropy bền vững theo trọng số chiều dài: Một khuôn khổ hình học và tôpô xanh cho phép xấp xỉ hàm

Phân loại phần mềm độc hại dựa trên tín hiệu sử dụng CNN 1D

Hướng tới một phương pháp đo lường cho trí tuệ nhân tạo: Môi trường quy tắc ẩn và học tăng cường

BranchGRPO: GRPO ổn định và hiệu quả với phân nhánh có cấu trúc trong mô hình khuếch tán

LM-Searcher: Tìm kiếm kiến trúc thần kinh liên miền với LLM thông qua mã hóa số thống nhất

Không suy nghĩ, chỉ AI: Các khuyến nghị tuyển dụng LLM thiên vị làm thay đổi quá trình ra quyết định của con người và hạn chế quyền tự chủ của con người

Cấu trúc cơ bản nào trong hàm phần thưởng cho phép học phần thưởng thưa thớt hiệu quả?

HodgeFormer: Bộ biến đổi cho các toán tử có thể học được trên lưới tam giác thông qua ma trận Hodge dựa trên dữ liệu

CAT: Điều chỉnh sự chú ý nhân quả để đưa kiến thức nhân quả chi tiết vào các mô hình ngôn ngữ lớn

Nghiên cứu thí điểm về AI tạo sinh và tư duy phản biện trong lớp học đại học

ZkLoRA: Tinh chỉnh các mô hình ngôn ngữ lớn với bảo mật có thể xác minh thông qua bằng chứng không kiến thức

EmbodiedOneVision: Tiền huấn luyện thị giác-văn bản-hành động xen kẽ cho điều khiển robot nói chung

Mạng nơ-ron tăng đột biến có độ trễ cực thấp với mô hình nơ-ron tích hợp và bắn phụ thuộc thời gian để phát hiện đối tượng

Tấn công LLM và tác nhân AI: Quảng cáo Nhúng tấn công vào các mô hình ngôn ngữ lớn

Khảo sát các mối đe dọa đối với hệ thống xác thực giọng nói và chống giả mạo

Tin tưởng nhưng phải xác minh! Khảo sát về thiết kế xác minh để mở rộng quy mô thời gian kiểm thử

Nghiên cứu về hệ thống đề xuất đàm thoại xem xét các loại người tiêu dùng

Tổng quan tài liệu có hệ thống về thế hệ tăng cường truy xuất: Kỹ thuật, số liệu và thách thức

Grid-Agent: Hệ thống đa tác nhân được hỗ trợ bởi LLM để điều khiển lưới điện

Cải thiện chú thích hội thoại với đặc điểm của người nói bằng cách tận dụng LLM đóng băng

Một phương pháp tiếp cận lấy người dùng làm trung tâm để kích hoạt trí tuệ tăng cường trong các hệ thống gia sư thông minh: Trường hợp của ứng dụng MathAIde

Ngữ pháp truyền tải ý nghĩa: Khả năng chấp nhận Gradient định hình các biểu diễn hình học của các công trình trong LLM

MoRPI-PINN: Một khuôn khổ dựa trên vật lý cho điều hướng quán tính thuần túy của robot di động

Tạo video có điều kiện để nén video hiệu quả cao

Mô hình ngôn ngữ lớn để phát hiện sự cố trong video: Khảo sát các phương pháp, tập dữ liệu và thách thức

Nền tảng DINO-US-SAM: Phân đoạn đa cơ quan bằng văn bản trong siêu âm với các mô hình ngôn ngữ thị giác được điều chỉnh theo LoRA

Mô hình ngôn ngữ có thể không hiểu bạn: Đánh giá lý thuyết tâm trí thông qua gợi ý câu chuyện

Từ hình ảnh đến hiểu biết sâu sắc: Giám sát đa dạng sinh học có thể giải thích được bằng các giải thích về môi trường sống bằng ngôn ngữ đơn giản

HueManity: Thăm dò nhận thức thị giác chi tiết trong MLLM

Hiểu về Học tập Đo lường Hành vi: Một Nghiên cứu Quy mô Lớn về Môi trường Học tập Tăng cường Gây mất tập trung

Bản địa hóa các biểu diễn Persona trong LLM

Phân loại đa đầu ra sử dụng kiến trúc giao thoa để chẩn đoán lỗi phức hợp của động cơ trong điều kiện được gắn nhãn một phần

SCIZOR: Một phương pháp tự giám sát để quản lý dữ liệu cho việc học mô phỏng quy mô lớn

Học phí Thạc sĩ Luật (LLM) của bạn có quá cao không? Mã hóa, Minh bạch và Khuyến khích

Hướng tới Nhận thức Thị giác Không gian thông qua Sự hợp nhất Phân cấp của các Chuyên gia Thị giác

Trợ lý nhận thức thị giác không gian

Phòng ngừa tràn giúp cải thiện LLM hồi quy ngữ cảnh dài

GRADA: Xếp hạng lại dựa trên đồ thị chống lại Tấn công tài liệu đối nghịch

OBLIVIATE: Máy học bỏ học mạnh mẽ và thiết thực cho các mô hình ngôn ngữ lớn

Phân tích so sánh các mô hình học sâu nhẹ cho các thiết bị có bộ nhớ hạn chế

Bỏ học so với che giấu: Chúng ta có thực sự xóa bỏ kiến thức không?

Llama-Nemotron: Mô hình suy luận hiệu quả

Tripartite-GraphRAG thông qua Plugin Ontologies

DMS-Net: Mạng lưới đa tỷ lệ đa mô thức kép dùng để phân loại hình ảnh đáy mắt hai mắt

Nâng cao khả năng ứng phó sự cố giao thông thông qua định vị thời gian dưới giây với HybridMamba

Tiêu chuẩn hiểu video tập trung vào âm thanh mà không cần phím tắt văn bản

Mô hình lắng nghe bạn: Việc triển khai mô hình ngôn ngữ âm thanh nên xem xét nguyên tắc đặc quyền tối thiểu

Mạng chưng cất đa chiều Involution và BSConv cho độ phân giải siêu cao của hình ảnh nhẹ

DistJoin: Bộ ước tính số lượng tham gia tách rời dựa trên điều chế vị từ thần kinh thích ứng

MIRROR: Học tập biểu diễn bệnh lý tự giám sát đa phương thức thông qua việc căn chỉnh và duy trì phương thức

Sự thích ứng mạnh mẽ của các mô hình đa phương thức lớn để tăng cường phát hiện meme thù hận

VINP: Suy luận Bayesian biến thiên với tiên lượng lời nói thần kinh cho việc khử vang lời nói hiệu quả ASR chung và nhận dạng RIR mù

Cardiverse: Tận dụng LLM để tạo nguyên mẫu trò chơi bài mới lạ

TrojanRobot: Các cuộc tấn công cửa sau trong thế giới vật lý chống lại thao tác robot dựa trên VLM

Tự động phát hiện các mẫu lừa đảo trực tuyến

TokenSelect: Suy luận ngữ cảnh dài hiệu quả và ngoại suy độ dài cho LLM thông qua lựa chọn bộ đệm KV cấp mã thông báo động

Giải quyết các bài toán POMDP đơn điệu có ngân sách thực sự lớn bằng phương pháp học siêu tăng cường theo hướng dẫn của Oracle

CTourLLM: Nâng cao kiến thức về du lịch Trung Quốc của các chương trình LLM

Căn chỉnh trực tiếp toàn bộ quỹ đạo khuếch tán với sở thích chi tiết của con người

SFR-DeepResearch: Hướng tới học tăng cường hiệu quả cho các tác nhân đơn lẻ có khả năng suy luận tự chủ

MSRFormer: Học biểu diễn mạng lưới đường bộ bằng cách sử dụng hợp nhất tính năng đa tỷ lệ của các tương tác không gian không đồng nhất

Sự chú ý của một nụ hôn: Khám phá bản đồ chú ý trong video khuếch tán cho XAIxArts

EvoEmo: Hướng tới các chính sách cảm xúc tiến hóa cho các đại lý LLM trong đàm phán nhiều chiều

AI-SearchPlanner: Tìm kiếm tác nhân mô-đun thông qua học tăng cường đa mục tiêu tối ưu Pareto

MaRVL-QA: Một chuẩn mực cho lý luận toán học trên cảnh quan trực quan

ĐáNh giá chuẩn cho chương trình LLM chuyên ngành: Nghiên cứu điển hình về học thuật và hơn thế nữa

CountQA: MLLM có hiệu quả như thế nào trong thực tế?

ASP-FZN: Bộ giải quyết tập hợp câu trả lời ràng buộc dựa trên bản dịch

MedGellan: Hướng dẫn y tế do LLM biên soạn để hỗ trợ bác sĩ

Mô hình hóa sự tiến hóa theo thời gian của các chuẩn mực pháp lý: Một phương pháp tiếp cận dựa trên LRMoo, cấp độ thành phần, tập trung vào sự kiện đối với đồ thị kiến thức pháp lý

Phép cộng trong bốn chuyển động: Lập bản đồ quỹ đạo thông tin theo từng lớp trong LLM

GeoChain: Chuỗi suy nghĩ đa phương thức cho lý luận địa lý

Tự động định hình phần thưởng từ dữ liệu ngoại tuyến phức tạp

Hình dung tư duy: Sơ đồ khái niệm cho phép lập kế hoạch kết hợp mạnh mẽ trong LMM

COMMA: Một chuẩn mực giao tiếp đa phương thức đa tác nhân

PIN: Bộ dữ liệu chuyên sâu về kiến thức dành cho các tài liệu đa phương thức được ghép nối và xen kẽ

Hiểu mô hình ngôn ngữ để giải quyết vấn đề suy luận nhiều bước tượng trưng từ góc nhìn của cơ chế đệm

Khám phá qua trung gian cảm xúc bản thân trong gương trí tuệ nhân tạo: Những phát hiện từ tâm lý học nhận thức

Mini-o3: Mở rộng các mẫu suy luận và lượt tương tác cho tìm kiếm trực quan

ACE và Tổng quát hóa Đa dạng thông qua Sự bất đồng có Chọn lọc

ĐưA các mô hình nền tảng liên kết đa phương thức đa nhiệm vụ vào lĩnh vực giáo dục: Triển vọng và thách thức

ImportSnare: Tấn công "Code Manual" có chủ đích trong việc tạo mã tăng cường truy xuất

Phá vỡ Android bằng AI: Đi sâu vào khai thác được hỗ trợ bởi LLM

Tăng tốc AI cục bộ trên GPU tiêu dùng: Chiến lược động nhận thức phần cứng cho YOLOv10

CHÍNH THỨC: Ước tính độ bất định đa cấp được tăng cường bằng đồ thị cho các mô hình ngôn ngữ lớn

ĐàO tạo trước tương phản đa phương thức của CBCT và IOS để phân đoạn răng nâng cao

Khám phá các quy luật tỷ lệ cho các mô hình ngôn ngữ lớn thông qua các bài toán nghịch đảo

Kiểm tra suy luận thành viên tích cực (aMINT): Nâng cao khả năng kiểm toán mô hình bằng học tập đa nhiệm vụ

Lập bản đồ khu vực bị cháy dựa trên học sâu sử dụng mạng lưới Siamese hai thời gian và bộ dữ liệu của AlphaEarth Foundation

Các mô hình mở nhỏ đạt được sự tương đương gần như với các mô hình lớn trong dịch thuật văn học tài nguyên thấp với chi phí thấp hơn nhiều

Dự báo tổn thất thiết bị của Nga bằng mô hình chuỗi thời gian và học sâu

SegNet nâng cao với Grad-CAM tích hợp để phân đoạn lớp võng mạc có thể diễn giải được trong hình ảnh OCT

Tiện ích cá nhân của sự hài lòng trong cuộc sống cho thấy sự ác cảm bất bình đẳng không liên quan đến sự liên kết chính trị

XSRD-Net: Phát hiện tái phát đột quỵ có thể giải thích được

Liệu LLM có đủ để phát hiện nội dung cực đoan, giả mạo, phân cực và có hại? Đánh giá việc học trong ngữ cảnh so với tinh chỉnh

Bạn đang nghĩ gì vậy? Một nghiên cứu quy mô lớn do LLM thực hiện về động lực tái cấu trúc trong các dự án nguồn mở

ĐáNh giá hiệu suất tính năng phổ và nhịp điệu cho phân loại âm thanh cấp độ danh mục và lớp với mạng nơ-ron tích chập sâu

Nâng cao việc học trực tuyến bằng cách tích hợp cảm biến sinh học và phân tích học tập đa phương thức để phát hiện và dự đoán hành vi của học sinh: Đánh giá

Tấn công che giấu và nội suy phổ (SMIA): Một cuộc tấn công đối kháng hộp đen chống lại hệ thống xác thực giọng nói và chống giả mạo

Căn chỉnh trực tiếp toàn bộ quỹ đạo khuếch tán với sở thích chi tiết của con người

Created by

Haebom

Tác giả

Xiangwei Shen, Zhimin Li, Zhantao Yang, Shiyi Zhang, Yingfang Zhang, Donghao Li, Chunyu Wang, Qinglin Lu, Yansong Tang

Phác thảo

Bài báo này trình bày một phương pháp tiếp cận mới, giải quyết hai thách thức chính của các phương pháp hiện có, giúp căn chỉnh trực tiếp các mô hình khuếch tán với sở thích của con người: chi phí tính toán và nhu cầu điều chỉnh mô hình bù trừ ngoại tuyến liên tục. Các phương pháp hiện có yêu cầu tính toán gradient trong quá trình khử nhiễu đa giai đoạn, dẫn đến chi phí tính toán cao. Hơn nữa, chúng có các bước tối ưu hóa hạn chế và yêu cầu điều chỉnh mô hình bù trừ ngoại tuyến liên tục để đạt được hình ảnh chân thực và hiệu ứng ánh sáng chính xác. Để khắc phục những hạn chế của khử nhiễu đa giai đoạn, bài báo này đề xuất một phương pháp Căn chỉnh Trực tiếp (Direct-Align) xác định trước một từ điển nhiễu và nội suy hiệu quả hình ảnh gốc theo các bước thời gian tùy ý. Hơn nữa, chúng tôi giới thiệu Tối ưu hóa Sở thích Tương đối Ngữ nghĩa (SRPO), sử dụng các tín hiệu có điều kiện văn bản làm bù trừ. Phương pháp này điều chỉnh bù trừ trực tuyến dựa trên sự củng cố nhắc nhở tích cực và tiêu cực, giảm sự phụ thuộc vào việc tinh chỉnh bù trừ ngoại tuyến. Bằng cách tinh chỉnh mô hình FLUX với việc khử nhiễu tối ưu và điều chỉnh bù trừ trực tuyến, chúng tôi đạt được sự cải thiện hơn gấp ba lần về độ chân thực và chất lượng thẩm mỹ theo đánh giá của con người.

Takeaways, Limitations

•

Takeaways:

◦

Chúng tôi trình bày phương pháp Direct-Align có hiệu quả giải quyết vấn đề chi phí tính toán của quá trình loại bỏ nhiễu nhiều giai đoạn.

◦

Chúng tôi đề xuất SRPO, một phương pháp điều chỉnh phần thưởng trực tuyến giúp giảm sự phụ thuộc vào việc điều chỉnh mô hình phần thưởng ngoại tuyến.

◦

Cải thiện hơn 3 lần về tính chân thực và chất lượng thẩm mỹ của mô hình FLUX.

◦

Phản ánh hiệu quả sở thích của người dùng thông qua việc điều chỉnh phần thưởng dựa trên văn bản.

•

Limitations:

◦

Hiệu suất của phương pháp Direct-Align có thể phụ thuộc vào chất lượng của từ điển nhiễu được xác định trước.

◦

Hiệu quả của SRPO có thể bị ảnh hưởng bởi chất lượng và sự đa dạng của lời nhắc văn bản.

◦

Cần nghiên cứu thêm về hiệu suất tổng quát của phương pháp đề xuất.

◦

Chỉ có kết quả thử nghiệm cho một mô hình cụ thể (FLUX) được trình bày, khiến khả năng khái quát hóa cho các mô hình khác không chắc chắn.

Xem PDF

Made with Slashpage