Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

RotBench: Đánh giá các mô hình ngôn ngữ lớn đa phương thức trong việc xác định độ xoay hình ảnh

Tỷ lệ thời gian đầu vào

CRED-SQL: Nâng cao khả năng phân tích cú pháp văn bản sang SQL của cơ sở dữ liệu quy mô lớn trong thế giới thực thông qua mô tả thực thi và truy xuất cụm

STEM: Đánh giá năng lực tương đối hiệu quả của LLM thông qua các mẫu chuyển đổi có cấu trúc

AdaRing: Hướng tới khả năng thích ứng ngôn ngữ thị giác siêu nhẹ thông qua phân tích vòng tenxơ xuyên lớp

AI thiên vị cải thiện khả năng ra quyết định của con người nhưng lại làm giảm lòng tin

MAViS: Một khuôn khổ đa tác nhân cho việc kể chuyện video dài

ExpVG: Nghiên cứu không gian thiết kế của nền tảng trực quan trong mô hình ngôn ngữ lớn đa phương thức

MetAdv: Nền tảng thử nghiệm đối kháng thống nhất và tương tác dành cho xe tự hành

ETA: Điều chỉnh thời gian thử nghiệm dựa trên năng lượng để hoàn thành độ sâu

Mở rộng Bộ ước tính độ sâu đơn sắc cơ bản sang Máy ảnh mắt cá với Mã thông báo hiệu chuẩn

Khi âm thanh hay trở nên đối nghịch: Bẻ khóa các mô hình ngôn ngữ âm thanh bằng đầu vào lành tính

CRINN: Học tăng cường tương phản cho tìm kiếm lân cận gần nhất

Khởi tạo lại trọng số so với đơn vị để duy trì tính dẻo trong mạng nơ-ron

Mỗi người một ý: Khám phá sự nhúng tối ưu trong RAG

Chưng cất tính năng là lựa chọn tốt hơn cho học tập liên bang không đồng nhất mô hình

TolerantECG: Mô hình nền tảng cho điện tâm đồ không hoàn hảo

DeepRetro: Khám phá con đường tổng hợp ngược bằng cách sử dụng lý luận LLM lặp lại

LoSiA: Hiệu quả tinh chỉnh cấp cao thông qua định vị và tối ưu hóa mạng con

Cấu trúc như tìm kiếm: Học hoán vị không giám sát cho tối ưu hóa tổ hợp

Tăng cường độ nhạy thời gian của mô hình ngôn ngữ lớn để khuyến nghị với điều chỉnh phản thực tế

Phân tích cảnh thính giác đa tác nhân

MinD: Học mô hình thế giới hệ thống kép để lập kế hoạch thời gian thực và phân tích rủi ro tiềm ẩn

AtmosMJ: Xem xét lại cơ chế Gating cho dự báo thời tiết AI vượt ra ngoài quy mô năm

ĐáNh giá chuẩn các mô hình chuỗi thời gian được đào tạo trước để dự báo giá điện

Spore in the Wild: Nghiên cứu điển hình về Spore.fun như một thí nghiệm tiến hóa trong môi trường mở với các tác nhân AI có chủ quyền trên Blockchain được bảo mật TEE

Phê bình-GRPO: Thúc đẩy lý luận LLM với ngôn ngữ tự nhiên và phản hồi số

Phục hồi thần kinh các khiếm khuyết xanh trong ảnh Autochrome lịch sử dựa trên dữ liệu tổng hợp hoàn toàn

Mối quan ngại về bảo mật đối với các mô hình ngôn ngữ lớn: Một cuộc khảo sát

ĐịNh dạng dữ liệu chung (CDF): Định dạng chuẩn cho dữ liệu trận đấu trong bóng đá (Bóng đá)

Bộ biến đổi một lớp được chứng minh là tối ưu cho suy luận trong ngữ cảnh và học tập liên kết phân phối trong các nhiệm vụ dự đoán mã thông báo tiếp theo

FMSD-TTS: Tổng hợp văn bản thành giọng nói đa phương ngữ nhiều người nói ít lần để tạo bộ dữ liệu giọng nói \"U-Tsang, Amdo và Kham

Lượng hóa sự không chắc chắn cho các mô hình ngôn ngữ: Một bộ hộp đen, hộp trắng, thẩm phán LLM và người chấm điểm tổng hợp

ẢO giác và trích xuất thông tin quan trọng trong văn bản y khoa: Đánh giá toàn diện về các mô hình ngôn ngữ lớn nguồn mở

Khung khái niệm cho các hệ thống quyết định dựa trên AI trong cơ sở hạ tầng quan trọng

Hành động chi phối trong trò chơi thông tin không hoàn hảo

Thực hành: Phân đoạn các dấu hiệu riêng lẻ từ các chuỗi liên tục

PathGPT: Định hình lại Đề xuất Đường dẫn như một Nhiệm vụ Tạo Ngôn ngữ Tự nhiên với Mô hình Ngôn ngữ Tăng cường Truy xuất

Tăng cường việc tạo biểu đồ thành mã trong MLLM thông qua tinh chỉnh theo hướng dẫn ưu tiên kép

JudgeLRM: Mô hình lý luận lớn như một thẩm phán

Trí tuệ nhân tạo trong giáo dục K-12: Sáng kiến CyberScholar

Tạo ngôn ngữ tự nhiên từ sự kiện trực quan: Câu hỏi mở quan trọng và hiện đại

Học tăng cường dựa trên hành động lai cho lái xe tự động tương thích đa mục tiêu

Liệu chưng cất tương phản có đủ để học các biểu diễn 3D toàn diện không?

Action Engine: Tạo quy trình làm việc tự động trong FaaS

Tầm quan trọng của ngôn ngữ mô hình hóa trực quan trong kỹ thuật phần mềm tạo sinh

Phong cách hóa đầu 3D bảo toàn bản sắc với chưng cất điểm số đa chế độ xem

SLED: Giải mã sự tiến hóa của Logits tự thân để cải thiện tính xác thực trong các mô hình ngôn ngữ lớn

Kiểm tra các thành phần của lý thuyết lược đồ chú ý trong mạng nơ-ron nhân tạo

Một chút dữ liệu của con người có thể đi một chặng đường dài

Source2Synth: Tạo và quản lý dữ liệu tổng hợp dựa trên nguồn dữ liệu thực tế

Xóa bỏ định kiến xã hội cho chương trình Thạc sĩ Luật Đa phương thức Công bằng

Tiêu chuẩn toàn diện về GNN quang phổ: Tác động đến hiệu quả, bộ nhớ và hiệu suất

LoRA-XS: Thích ứng bậc thấp với số lượng tham số cực kỳ nhỏ

Cải thiện trò chuyện hướng đến chẩn đoán trầm cảm bằng cách theo dõi trạng thái tâm lý

ƯớC tính giới hạn dưới của sự tiêu tán năng lượng cho học tập trong bộ nhớ hình thái thần kinh

ĐừNg Nhấn Nút! Khám phá Rủi ro Rò rỉ Dữ liệu trong Học máy và Học chuyển giao

Hướng tới việc sử dụng bản đồ nổi bật để giải thích các điện tâm đồ chất lượng thấp cho người dùng cuối

Sự hội tụ Nash của các thuật toán học tập dựa trên trung bình trong đấu giá giá đầu tiên

TASER: Các tác nhân bảng để trích xuất và đề xuất theo sơ đồ

Mô hình hóa mạch logic quan hệ cho mạng tích chập đồ thị đảo ngược

EvoCurr: Chương trình giảng dạy tự phát triển với khả năng tạo mã hành vi cho việc ra quyết định phức tạp

KIRETT: Trợ lý điều trị thông minh dựa trên biểu đồ kiến thức cho hoạt động cứu hộ thông minh

EoH-S: Sự phát triển của tập hợp Heuristic sử dụng LLM để thiết kế Heuristic tự động

SE-Agent: Tối ưu hóa quỹ đạo tự tiến hóa trong suy luận đa bước với các tác nhân dựa trên LLM

ĐáNh giá chuẩn các đường ống tăng cường truy xuất vectơ, đồ thị và lai (RAG) cho mạng truy cập vô tuyến mở (ORAN)

Tiêu chuẩn AI NordDRG cho các mô hình ngôn ngữ lớn

Gradient chính sách bộ nhớ hữu hạn mạnh mẽ cho POMDP mô hình ẩn

Luật mở rộng quy mô của Agent RL: Agent RL với khả năng thực thi mã tự phát để giải quyết vấn đề toán học

Học không giám sát cho phép gán bậc hai

Trả lời câu hỏi tăng cường truy xuất theo tham chiếu trên các tài liệu độc quyền không đồng nhất

Xây dựng đồ thị chuẩn bằng các mô hình ngôn ngữ lớn để suy luận theo hướng mạch lạc

Lượng tử hóa đáp ứng dLLM: Một nghiên cứu có hệ thống về lượng tử hóa sau đào tạo cho LLM khuếch tán

Học cấu trúc đồ thị với nút thắt thông tin đồ thị tạm thời cho học biểu diễn quy nạp

$TIME[t] \subseteq SPACE[O(\sqrt{t})]$ thông qua Nén chiều cao cây

Suy luận chuỗi suy nghĩ dài xuyên ngôn ngữ

Từ công cụ thụ động đến đồng đội nhận thức xã hội: Khung khái niệm cho AI tác nhân trong học tập hợp tác giữa con người và AI

ĐáNh giá việc tạo ra dữ liệu tăng cường truy xuất so với dữ liệu đầu vào ngữ cảnh dài cho lý luận lâm sàng trên EHR

TransLight: Điều khiển ánh sáng tùy chỉnh theo hướng dẫn hình ảnh với công nghệ tách ghép tạo sinh

DINOv3 với chương trình đào tạo thời gian thử nghiệm để đăng ký hình ảnh y tế

MF-LPR$^2$: Khôi phục và nhận dạng hình ảnh biển số xe đa khung bằng luồng quang học

TransLLM: Khung nền tảng đa nhiệm thống nhất cho giao thông đô thị thông qua tính năng nhắc nhở có thể học được

PepThink-R1: Thạc sĩ Luật về Tối ưu hóa Peptide Vòng có thể diễn giải bằng CoT SFT và Học tăng cường

Tạo ra các bài toán vật lý đẳng cấu đáng tin cậy bằng ChatGPT với chuỗi nhắc nhở và sử dụng công cụ

Tạo phân tử được kiểm soát đa phương thức với mô hình ngôn ngữ khuếch tán

ĐáNh giá sự liên kết đa ngôn ngữ và chuyển đổi mã trong LLM thông qua suy luận ngôn ngữ tự nhiên tổng hợp

AFABench: Một khuôn khổ chung để đánh giá hiệu suất thu thập tính năng chủ động

Trò chơi Emerson-Lei và Manna-Pnueli cho tổng hợp LTLf+ và PPLTL+

Cấy ghép rồi tái tạo: Một mô hình mới để tăng cường dữ liệu văn bản

ShizhenGPT: Hướng tới chương trình Thạc sĩ Y học Cổ truyền Đa phương thức

Học trong trò chơi Stackelberg đa mục tiêu lặp lại với thao tác trả thưởng

Kẻ thù của gian lận: Các cuộc tấn công đối nghịch có thể chuyển giao trong phát hiện gian lận thẻ tín dụng

ECHO: Mã hóa phân cấp nhận biết tần số cho tín hiệu có độ dài thay đổi

ELATE: Mô hình ngôn ngữ tiến hóa cho kỹ thuật chuỗi thời gian tự động

OneLoc: Hệ thống đề xuất tạo ra nhận biết địa lý cho dịch vụ cuộc sống địa phương

Liệu các chuyên viên LLM có thể giải quyết các nhiệm vụ hợp tác? Một nghiên cứu về lập kế hoạch và phối hợp ứng phó với tình huống khẩn cấp

Nghiên cứu về tỷ lệ tín hiệu bất biến trên méo tiếng trong tách giọng nói với tham chiếu nhiễu

UST-SSM: Mô hình không gian trạng thái không gian-thời gian thống nhất cho mô hình hóa video đám mây điểm

Một khuôn khổ đồng phát triển phần cứng-phần mềm nguồn mở cho phép các hệ thống tăng tốc đa năng hiệu quả

Mamba2 gặp Silence: Phân tách nguồn giọng hát mạnh mẽ cho các vùng thưa thớt

Tỷ lệ thời gian đầu vào

Created by

Haebom

Tác giả

Rapheal Huang (Yuming), Weilong Guo

Phác thảo

Bài báo này trình bày về Input Time Scaling (ITS), một mô hình mở rộng mới bổ sung cho các phương pháp mở rộng dữ liệu, mở rộng huấn luyện và mở rộng thời gian suy luận hiện có cho các mô hình ngôn ngữ quy mô lớn (LLM). Chúng tôi đề xuất một phương pháp kết hợp siêu kiến thức LLM trong quá trình huấn luyện và kiểm thử để cải thiện đầu vào bằng nhiều chiến lược khác nhau, và chúng tôi khám phá ra một hiện tượng được gọi là đồng thiết kế huấn luyện-kiểm thử. Việc áp dụng các chiến lược truy vấn cho cả huấn luyện và kiểm thử cải thiện đáng kể hiệu suất, trong khi chỉ áp dụng chúng cho một bên sẽ làm giảm đáng kể hiệu suất. Điều thú vị là, các tập dữ liệu có chất lượng dữ liệu thấp có thể đạt được hiệu suất cao, trong khi việc sử dụng các ví dụ được chọn ngẫu nhiên hoặc thêm thông tin không liên quan đôi khi mang lại kết quả tốt nhất. Điều này bác bỏ định kiến quy nạp phổ biến "vào rác, ra rác". Trên thực tế, các tập dữ liệu bao gồm dữ liệu chất lượng cao có thể hạn chế hiệu suất. Các mô hình được huấn luyện với nhiều dữ liệu có chất lượng tương tự (15k so với 1k) đôi khi hoạt động kém hơn, cho thấy cần phải thận trọng khi chỉ mở rộng tập dữ liệu. Kết quả của nghiên cứu này phù hợp với hiện tượng "Ít hơn là Nhiều hơn", chứng minh rằng khả năng suy luận đa chiều có thể được tạo ra với một số lượng nhỏ ví dụ. Trong các thử nghiệm với các mô hình dựa trên hướng dẫn Qwen2.5-32B, chúng tôi đã đạt được hiệu suất vượt trội ở AIME24 (76,7%) và AIME25 (76,7%) pass@1, và đạt được AIME24 (76,7%) và AIME25 (80%) bằng cách sử dụng phương pháp bỏ phiếu đa số ba mô hình. Dựa trên DeepSeek-R1-Distill-Qwen-32B, chúng tôi đã đạt được AIME24 (86,7%) và AIME25 (76,7%). Chúng tôi dự định mã nguồn mở tập dữ liệu, đường dẫn dữ liệu, kết quả đánh giá và các điểm kiểm tra để đảm bảo khả năng tái tạo và nghiên cứu sâu hơn.

Takeaways, Limitations

•

Takeaways:

◦

Một mô hình mở rộng LLM mới có tên là Input Time Scaling (ITS) được đề xuất.

◦

Nhấn mạnh tầm quan trọng của việc thiết kế đồng thời đào tạo và kiểm tra

◦

Xác nhận tính khả thi của việc đạt được hiệu suất cao ngay cả với các tập dữ liệu chất lượng thấp và bác bỏ quan niệm thông thường rằng "đầu vào rác, đầu ra rác"

◦

Xác nhận khả năng tạo ra khả năng suy luận đa chiều ngay cả với lượng dữ liệu nhỏ (xác nhận hiện tượng 'Ít hơn là Nhiều hơn')

◦

ĐạT được hiệu suất SOTA trong AIME24 và AIME25

•

Limitations:

◦

Việc cung cấp mã nguồn mở cho tập dữ liệu, đường dẫn dữ liệu, kết quả đánh giá và điểm kiểm tra vẫn đang được tiến hành.

◦

Cần nghiên cứu thêm về tác động của việc mở rộng kích thước tập dữ liệu đơn giản.

◦

Khả năng khái quát hóa cần được xác minh trên nhiều kiến trúc và tập dữ liệu LLM khác nhau.

Xem PDF

Made with Slashpage