Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

PRIX: Học cách lập kế hoạch từ những điểm ảnh thô cho việc lái xe tự động toàn diện

Swin-TUNA: Một phương pháp PEFT mới để phân đoạn hình ảnh thực phẩm chính xác

EarthLink: Một tác nhân AI tự phát triển cho khoa học khí hậu

Proxy thực tế: Tương tác chất lỏng với các đối tượng trong thế giới thực trong MR thông qua các biểu diễn trừu tượng

Tận dụng các tín hiệu đa nguồn và không đồng nhất để phát hiện mệt mỏi

Sự tốt đẹp của phát âm không phân đoạn

Khung ước tính tư thế tương đối thích ứng với điều chỉnh tiếng ồn kép cho các thao tác tiếp cận an toàn

Phối hợp thành phần cho các nhóm nhiều robot với các mô hình ngôn ngữ lớn

Sự khuếch tán vượt trội hơn hồi quy tự động trong các cài đặt dữ liệu bị hạn chế

Nút thắt LLM mới: Quan điểm hệ thống về sự chú ý tiềm ẩn và sự pha trộn của các chuyên gia

EndoControlMag: Hệ thống phóng đại chuyển động mạch máu nội soi mạnh mẽ với chức năng thiết lập lại tham chiếu định kỳ và kiểm soát mặt nạ kép nhận biết mô phân cấp

Mạng nơ-ron đồ thị khoảng cách dài-ngắn và cải thiện chương trình học để nhận dạng cảm xúc trong hội thoại

Omni-Thinker: Mở rộng khái quát hóa liên miền trong LLM thông qua RL đa nhiệm vụ với phần thưởng kết hợp

GCC-Spam: Phát hiện thư rác thông qua GAN, Học tương phản và Mạng tương đồng ký tự

SDSC: Một thước đo nhận biết cấu trúc cho việc học biểu diễn tín hiệu ngữ nghĩa

Các LLM đa ngôn ngữ không phải là những người tư duy đa ngôn ngữ: Bằng chứng từ Đánh giá phép loại suy tiếng Hindi

ĐIều chế sự chú ý động tần số cho dự đoán dày đặc

Khảo sát về học sâu để giải quyết vấn đề hình học

Mô hình nền tảng EEG: Đánh giá quan trọng về tiến độ hiện tại và hướng đi trong tương lai

Inversion-DPO: Đào tạo sau chính xác và hiệu quả cho các mô hình khuếch tán

Khung PBN-RL-XAI để khám phá chiến lược điều trị “chạy trốn” trong bệnh ung thư hắc tố

Nhiệm vụ trước: Nâng cao việc đánh giá mô hình bằng cách xem xét toàn bộ không gian của các nhiệm vụ hạ nguồn

OrQstrator: Một khuôn khổ hỗ trợ AI để tối ưu hóa mạch lượng tử tiên tiến

Một nghiên cứu toàn diện về phân loại đối số dựa trên LLM: từ LLAMA qua GPT-4o đến Deepseek-R1

Các chỉ số cơ học về sự hiểu biết trong các mô hình ngôn ngữ lớn

Thu nhỏ RL thành video dài

Học mô phỏng và điều khiển từ xa song phương nhanh chóng bằng cách sử dụng điều khiển lực không cảm biến thông qua mô hình động lực học chính xác

Bộ mã hóa tự động có mặt nạ cảm nhận được trái tim: Khám phá độ lệch đơn giản cho phân tích điện tâm đồ

SyncMapV2: Phân đoạn không giám sát mạnh mẽ và thích ứng

LLM Web Dynamics: Theo dõi sự sụp đổ của mô hình trong mạng lưới LLM

Tại sao hiệu ứng đánh giá phụ thuộc lớp lại xảy ra với các thuộc tính chuỗi thời gian? Một cuộc điều tra dữ liệu tổng hợp

Khuếch tán và phân tán: Tạo hình ảnh với chính quy hóa biểu diễn

LLM-D12: Thang đo hai chiều của sự phụ thuộc công cụ và quan hệ vào các mô hình ngôn ngữ lớn

MambaNeXt-YOLO: Mô hình không gian trạng thái lai để phát hiện đối tượng theo thời gian thực

PALADIN: Dấu vân tay thần kinh mạnh mẽ cho các mô hình khuếch tán văn bản sang hình ảnh

Học tăng cường trực tuyến dựa trên kết quả: Thuật toán và giới hạn cơ bản

Giải pháp học máy tích hợp trong nền tảng chăm sóc sức khỏe IoT để phân tầng nguy cơ suy tim

Vượt ra ngoài phân tích cấp thấp: Một phương pháp tiếp cận nhanh để học tập hiệu quả trên thiết bị

Máy biến đổi thị giác trong nông nghiệp chính xác: Một khảo sát toàn diện

PerceptionLM: Dữ liệu và Mô hình Truy cập Mở để Hiểu biết Trực quan Chi tiết

Vị trí: Một lý thuyết nhận dạng có cơ sở thực nghiệm sẽ thúc đẩy nghiên cứu học tập tự giám sát

LagKV: Thông tin độ trễ tương đối của bộ nhớ đệm KV cho biết mã thông báo nào quan trọng

Trigger without Trace: Hướng tới cuộc tấn công cửa sau bí mật vào các mô hình khuếch tán văn bản thành hình ảnh

Lấy mẫu Logit thưa thớt: Tăng tốc quá trình chắt lọc kiến thức trong LLM

Căn chỉnh tầm nhìn với ngôn ngữ: Xây dựng đồ thị tri thức đa phương thức không cần chú thích cho lý luận LLM nâng cao

Att-Adapter: Bộ điều hợp khuếch tán T2I đa thuộc tính, mạnh mẽ và chính xác theo từng miền thông qua bộ mã hóa tự động biến thiên có điều kiện

Khi Mô hình Ngôn ngữ Thị giác Lớn Gặp Hình ảnh Viễn thám Lớn: Cắt tỉa Mã thông báo Hướng dẫn Văn bản Thô sang Tinh

Học tập đa góc nhìn mạnh mẽ thông qua sự kết hợp biểu diễn của sự chú ý ở cấp độ mẫu và sự liên kết của nhiễu loạn mô phỏng

Xử lý ảo giác từ các mô hình có điều kiện để tái tạo hình ảnh y tế bằng DynamicDPS

Học máy lượng tử trong y học chính xác và khám phá thuốc -- Một bước ngoặt cho các phương pháp điều trị phù hợp?

Một mô hình ngôn ngữ chung để nhận dạng peptide

ExpliCa: Đánh giá lý luận nhân quả rõ ràng trong các mô hình ngôn ngữ lớn

EVEv2: Đường cơ sở được cải thiện cho các mô hình ngôn ngữ thị giác không cần bộ mã hóa

Căn chỉnh LLM như một phương pháp tối ưu hóa bộ thu thập thông tin: Một góc nhìn về thu thập thông tin

Pulse-PPG: Mô hình nền tảng PPG được đào tạo thực địa nguồn mở dành cho các ứng dụng đeo được trong phòng thí nghiệm và thực địa

Thị trường nhà ở trực tuyến

Học tập và tối ưu hóa tích hợp để quản lý tắc nghẽn và tối đa hóa lợi nhuận trong thị trường điện thời gian thực

Tích hợp bằng chứng vào thiết kế hệ thống hỗ trợ quyết định dựa trên XAI và AI: Khung phương tiện-mục đích cho người dùng cuối trong xây dựng

Thiết kế tham số có thể mở rộng cho mạch lượng tử siêu dẫn với mạng nơ-ron đồ thị

Khảo sát về Nhận dạng Nguyên nhân Sự kiện: Phân loại, Thách thức, Đánh giá và Triển vọng

Máy hiệu chỉnh thần kinh không được xếp hạng

Hướng tới sự tổng quát hóa đa phương thức y tế 3D phổ quát thông qua việc học biểu diễn bất biến cá nhân hóa

Nguyên thủy đa tạp chuyển động khả vi để tạo ra chuyển động phản ứng dưới các ràng buộc động học

Tinh chỉnh bậc không của LLM trong không gian con ngẫu nhiên

RUMI: Lục lọi bằng cách sử dụng thông tin lẫn nhau

Máy thần kinh không xếp hạng

VolDoGer: Bộ dữ liệu được LLM hỗ trợ cho việc khái quát hóa miền trong các tác vụ ngôn ngữ thị giác

Phát hiện sự trôi dạt khái niệm không giám sát từ các biểu diễn học sâu theo thời gian thực

Một khuôn khổ đánh giá đa diện để đánh giá dữ liệu tổng hợp được tạo ra bởi các mô hình ngôn ngữ lớn

DualXDA: Hướng tới việc phân bổ dữ liệu thưa thớt, hiệu quả và dễ giải thích trong các mô hình AI lớn

ĐịNh lượng tính độc đáo và tính chia rẽ trong bài phát biểu của Tổng thống

DocTER: Đánh giá việc chỉnh sửa kiến thức dựa trên tài liệu

Học các khái niệm có thể định nghĩa trong logic bậc nhất với đếm

Nhận biết và thu thập các hình dạng giao cắt đơn yếu trên cây

Compliance Brain Assistant: AI đàm thoại hỗ trợ các nhiệm vụ tuân thủ trong môi trường doanh nghiệp

Học các phép trừu tượng thời gian thông qua các phép đồng cấu biến thể trong các MDP trừu tượng được tạo ra bởi tùy chọn

Khi Quyền Tự chủ Trở nên Bất ổn: Chuẩn bị cho Rủi ro Thông đồng Nhiều tác nhân trong Hệ thống Xã hội

Một khuôn khổ tích hợp của kỹ thuật nhanh chóng và đồ thị kiến thức đa chiều để phân tích tranh chấp pháp lý

DisMS-TS: Loại bỏ các tính năng đa thang đo dư thừa cho phân loại chuỗi thời gian

Bị làm sai lệch bởi lý luận: Các mô hình ngôn ngữ lý luận trở thành kẻ đi nhờ xe trong các trò chơi hàng hóa công cộng

ĐịNh hình chùm tia và phân bổ tài nguyên để giảm thiểu độ trễ trong hệ thống OFDM hỗ trợ RIS

Khả năng ảnh hưởng của sự khác biệt thần kinh như một giải pháp dự phòng cho vấn đề căn chỉnh AI

EducationQ: Đánh giá năng lực giảng dạy của LLM thông qua khuôn khổ đối thoại đa tác nhân

SuperARC: Một bài kiểm tra bất khả tri cho trí thông minh hẹp, chung và siêu việt dựa trên các nguyên tắc nén đệ quy và xác suất thuật toán

IPCGRL: Học tăng cường hướng dẫn bằng ngôn ngữ để tạo ra cấp độ thủ tục

OR-LLM-Agent: Tự động hóa mô hình hóa và giải quyết các vấn đề tối ưu hóa nghiên cứu hoạt động bằng LLM suy luận

Lý luận hóa học trong LLM mở ra chiến lược lập kế hoạch tổng hợp và làm sáng tỏ cơ chế phản ứng

BEARCUBS: Một chuẩn mực cho các tác nhân web sử dụng máy tính

Từ Giả thuyết đến Xuất bản: Khảo sát Toàn diện về Hệ thống Hỗ trợ Nghiên cứu do AI thúc đẩy

HPS: Lấy mẫu sở thích cứng để căn chỉnh sở thích của con người

Phương pháp khen thưởng khác biệt cho thuật toán ra quyết định hợp tác đa phương tiện dựa trên học tăng cường

Truy xuất các lớp lệnh nhân quả có cơ sở kiến thức không nhất quán

Về cấu trúc nguồn gốc trò chơi và ứng dụng của nó

I-CEE: Điều chỉnh các giải thích về mô hình phân loại hình ảnh theo chuyên môn của người dùng

SIDA: Thích ứng miền Zero-shot điều khiển bằng hình ảnh tổng hợp

Tổng hợp phần mềm 3D được hướng dẫn bởi biểu diễn trung gian ràng buộc-biểu đạt

Di chuyển ra ngoài: Hợp tác giữa con người và AI dựa trên nền tảng vật lý

SynC: Tinh chỉnh bộ dữ liệu chú thích ảnh tổng hợp với ánh xạ một-nhiều để chú thích ảnh không cần chụp

ĐếM SMT gần đúng ngoài miền rời rạc

DRWKV: Tập trung vào các cạnh của vật thể để cải thiện hình ảnh thiếu sáng

Yume: Mô hình tạo thế giới tương tác

Created by

Haebom

Tác giả

Xiaofeng Mao, Shaoheng Lin, Zhen Li, Chuanhao Li, Wenshuo Peng, Tong He, Jiangmiao Pang, Mingmin Chi, Yu Qiao, Kaipeng Zhang

Phác thảo

Yume là một dự án nhằm mục đích tạo ra các thế giới tương tác, chân thực và động bằng hình ảnh, văn bản hoặc video. Người dùng có thể khám phá và điều khiển các thế giới này bằng thiết bị ngoại vi hoặc tín hiệu thần kinh. Trong bài báo này, chúng tôi trình bày một nguyên mẫu của Yume, tạo ra các thế giới động từ hình ảnh đầu vào và cho phép khám phá thế giới thông qua thao tác bàn phím. Để tạo ra thế giới video tương tác chất lượng cao, chúng tôi giới thiệu một khuôn khổ được thiết kế tốt bao gồm bốn thành phần chính: lượng tử hóa chuyển động camera, kiến trúc tạo video, bộ lấy mẫu nâng cao và tăng tốc mô hình. Các tính năng kỹ thuật chính bao gồm lượng tử hóa chuyển động camera để huấn luyện ổn định và nhập liệu bằng bàn phím thân thiện với người dùng, Bộ biến đổi khuếch tán video có mặt nạ (MVDT) với mô-đun bộ nhớ để tạo video vô hạn theo cách tự hồi quy, Cơ chế chống nhiễu (AAM) và Lấy mẫu du hành thời gian dựa trên Phương trình vi phân ngẫu nhiên (SDE) (TTS-SDE) không yêu cầu huấn luyện để có chất lượng hình ảnh tốt hơn và điều khiển chính xác hơn, và tăng tốc mô hình thông qua tối ưu hóa hiệp đồng của các cơ chế chưng cất và lưu trữ đối nghịch. Chúng tôi đã huấn luyện Yume bằng Sekai, một bộ dữ liệu khám phá thế giới chất lượng cao, và đạt được những kết quả đáng chú ý trong nhiều tình huống và ứng dụng khác nhau. Toàn bộ dữ liệu, cơ sở mã và trọng số mô hình đều có sẵn tại https://github.com/stdstu12/YUME , và Yume sẽ được cập nhật hàng tháng.

GitHub - stdstu12/YUME

Contribute to stdstu12/YUME development by creating an account on GitHub.

github.com

Takeaways, Limitations

•

Takeaways:

◦

Trình bày công nghệ để tạo ra thế giới ảo tương tác và chân thực bằng hình ảnh, văn bản và video

◦

Khám phá thế giới trực quan thông qua đầu vào bàn phím

◦

Tạo video chất lượng cao và kiểm soát chính xác thông qua các công nghệ tiên tiến như MVDT, AAM và TTS-SDE

◦

ÁP dụng các kỹ thuật tối ưu hóa hiệu quả để tăng tốc mô hình

◦

ĐóNg góp vào nghiên cứu và phát triển bằng cách phát hành dưới dạng mã nguồn mở

•

Limitations:

◦

Phiên bản hiện tại chỉ dựa vào đầu vào bàn phím và khả năng điều khiển tín hiệu ngoại vi hoặc thần kinh vẫn chưa được triển khai.

◦

ĐâY là phiên bản beta và cần được phát triển thêm trước khi triển khai đầy đủ chức năng.

◦

Thiếu mô tả chi tiết về tập dữ liệu Sekai

◦

Thiếu sự xác thực về sự suy giảm hiệu suất hoặc các vấn đề về tính ổn định có thể xảy ra khi sử dụng trong thời gian dài.

Xem PDF

Made with Slashpage