Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

HoPE: Mã hóa vị trí quay Hyperbolic cho mô hình phụ thuộc tầm xa ổn định trong các mô hình ngôn ngữ lớn

Phân tích so sánh các mô hình máy biến áp trong phân loại tweet thiên tai vì an toàn công cộng

ĐộNg lực xã hội mới nổi của các đại lý LLM trong vấn đề El Farol Bar

Cái tốt, cái xấu và cái mang tính xây dựng: Tự động đo lường tiện ích của việc bình duyệt ngang hàng đối với tác giả

Cảnh quan năng lượng cho phép loại trừ đáng tin cậy trong các mô hình ngôn ngữ lớn được tăng cường truy xuất cho chăm sóc sức khỏe

DEXOP: Thiết bị chuyển giao thao tác khéo léo của con người bằng robot

Học tăng cường để kiểm soát mạnh mẽ các hệ thống pin Li-ion có nhận thức về lão hóa với xác minh chính thức dựa trên dữ liệu

RepoDebug: Đánh giá gỡ lỗi đa nhiệm vụ và đa ngôn ngữ ở cấp độ kho lưu trữ của các mô hình ngôn ngữ lớn

Mô hình hóa buồng phản hồi giếng trọng lực với mô hình xác nhận thiên vị dựa trên LLM

Thông tin chi tiết từ Gradient Dynamics: Chuẩn hóa tự động Gradient

Efficient Virtuoso: Mô hình biến áp khuếch tán tiềm ẩn cho kế hoạch quỹ đạo có mục tiêu

MoSEs: Phát hiện văn bản do AI tạo ra có nhận thức về sự không chắc chắn thông qua sự kết hợp của các chuyên gia về phong cách với ngưỡng có điều kiện

DCPO: Tối ưu hóa chính sách cắt động

DSDE: Giải mã suy đoán động với tính ổn định KLD để phục vụ thế giới thực

AI có thể được kiểm toán không?

Phát hiện rủi ro cháy nổ bằng robot dựa trên suy luận đồ thị tri thức động: Phương pháp tiếp cận do LLM thúc đẩy với chuỗi suy nghĩ đồ thị

ĐIều hướng Đạo luật AI của EU: Những thách thức có thể lường trước trong việc đủ điều kiện kiểm tra tự động dựa trên học sâu đối với thiết bị y tế loại III

Hệ thống học tập bổ sung hỗ trợ học tập liên tục trực tuyến về dự báo chuyển động của phương tiện trong các thành phố thông minh

MultiPL-MoE: Mở rộng đa ngôn ngữ lập trình của các mô hình ngôn ngữ lớn thông qua hỗn hợp chuyên gia lai

QuadKAN: Điều khiển chuyển động bốn chân được tăng cường KAN thông qua học tăng cường đầu cuối

MovieCORE: Lý luận nhận thức trong phim ảnh

Tối ưu hóa nhắc nhở tự động với chưng cất nhắc nhở

Tấn công suy luận thành viên vào hệ thống đề xuất dựa trên LLM

Tận dụng các mô hình ngôn ngữ lớn để dịch ngôn ngữ ký hiệu chính xác trong các tình huống thiếu nguồn lực

Tối ưu hóa chính sách kỳ vọng nhóm cho học tăng cường không đồng nhất

Sự hội tụ và tổng quát hóa của phản chính quy hóa cho các mô hình tham số

Jet-Nemotron: Mô hình ngôn ngữ hiệu quả với tìm kiếm kiến trúc hậu nơ-ron

CARFT: Nâng cao khả năng lập luận LLM thông qua phương pháp học tương phản với phương pháp tinh chỉnh tăng cường dựa trên chuỗi suy nghĩ có chú thích

Kết nối khái quát hóa và cá nhân hóa trong nhận dạng hoạt động của con người thông qua học tập ít lần trên thiết bị

FinAgentBench: Bộ dữ liệu chuẩn cho việc truy xuất thông tin đại lý trong việc trả lời câu hỏi tài chính

Sử dụng trực giác nhân tạo trong phân loại riêng biệt, tối giản các tóm tắt khoa học để quản lý danh mục công nghệ

Máy phát hiện nhận biết sự khác biệt ngữ nghĩa để nhận dạng hình ảnh giả mạo

Giải pháp học tăng cường hiệu quả lượng tử cho giao hàng theo yêu cầu chặng cuối

BadPromptFL: Mối đe dọa cửa sau mới đối với việc học liên bang dựa trên lời nhắc trong các mô hình đa phương thức

Độ Tin cậy do sự không chắc chắn thúc đẩy: Dự đoán có chọn lọc và triển khai đáng tin cậy trong học máy hiện đại

Phân tích dữ liệu phi cấu trúc theo thời gian thực bằng máy học trên các kiến trúc không đồng nhất

VSI: Tích hợp phụ đề trực quan để chọn khung hình chính nhằm nâng cao khả năng hiểu video dài

SGDFuse: Khuếch tán được hướng dẫn bởi SAM để hợp nhất hình ảnh hồng ngoại và hình ảnh khả kiến có độ trung thực cao

MILP thời gian liên tục hiệu quả cho việc lập lịch trình và bố trí nhà chứa máy bay tích hợp

DIRF: Một khuôn khổ bảo vệ danh tính kỹ thuật số và quản lý bản sao trong các hệ thống AI Agentic

COLLAGE: Truy xuất dựa trên Fusion thích ứng cho việc học chính sách tăng cường

Lý luận thích ứng động thông qua MCTS do LLM hướng dẫn để KGQA hiệu quả và có nhận thức về ngữ cảnh

Tinh chỉnh nhãn giả đồ thị lồng nhau cho việc học thích ứng miền nhãn nhiễu

LanternNet: Hệ thống trục và nan hoa để tìm kiếm và ngăn chặn quần thể ruồi đèn lồng đốm

RecPS: Điểm rủi ro riêng tư cho hệ thống đề xuất

ĐIều chỉnh có giám sát trên dữ liệu được quản lý là học tăng cường (và có thể được cải thiện)

Khung hỗ trợ đa tác nhân dựa trên LLM nhập vai để phát hiện và giải quyết định kiến giao tiếp trong gia đình

PLAME: Thiết kế MSA nhẹ thúc đẩy quá trình gấp protein từ các nhúng tiến hóa

Driver-Net: Kết hợp nhiều camera để đánh giá mức độ sẵn sàng tiếp quản của tài xế trong xe tự động

Tận dụng hình ảnh không có nhãn ngoài phân phối: Phân đoạn ngữ nghĩa bán giám sát với mô hình từ vựng mở

Cấu trúc thị giác hỗ trợ lý luận thị giác: Giải quyết vấn đề liên kết trong VLM

Mạng nơ-ron Bayesian chính xác

Vận chuyển cho tất cả: Lập bản đồ kết nối xe đạp với tàu điện ngầm công bằng bằng cách sử dụng Học tập biểu diễn vùng

Trí tuệ mở rộng: Thiết kế trung tâm dữ liệu cho các mô hình ngôn ngữ thế hệ tiếp theo

Phân đoạn hình ảnh với các mô hình ngôn ngữ lớn: Một khảo sát với triển vọng cho các hệ thống giao thông thông minh

SAIL: Thực hiện chính sách học tập mô phỏng nhanh hơn trình diễn

Mô phỏng hành vi bỏ phiếu tại Nghị viện Châu Âu dựa trên cá nhân với các mô hình ngôn ngữ lớn

Kiểm soát thăng bằng hai chân với mô phỏng đứng và ngã toàn thân

Dự báo và lập kế hoạch theo quy luật chuyển động - Báo cáo kỹ thuật

Phương pháp $Q$-Learning và Actor-Phê bình hiệu quả cho Học tăng cường phần thưởng trung bình mạnh mẽ

Ai được ghi nhận hay đổ lỗi? Quy trách nhiệm giải trình trong các hệ thống AI hiện đại

Ghép loại tế bào tiến hóa không giám sát thông qua vận chuyển tối ưu giảm thiểu entropy

Phân loại đa đầu ra sử dụng kiến trúc giao thoa để chẩn đoán lỗi phức hợp của động cơ trong điều kiện được gắn nhãn một phần

SoloSpeech: Nâng cao trí thông minh và chất lượng trong trích xuất giọng nói mục tiêu thông qua quy trình tạo tầng

ĐIều hướng suy luận LLM thông qua sự thích ứng chỉ dựa trên thành kiến

MetaSTH-Sleep: Hướng tới phân loại giai đoạn giấc ngủ hiệu quả cho việc quản lý sức khỏe với siêu đồ thị tăng cường học tập siêu dữ liệu không gian-thời gian

InterFeat: Một đường ống dẫn để tìm ra các tính năng khoa học thú vị

HumaniBench: Một khuôn khổ lấy con người làm trung tâm để đánh giá các mô hình đa phương thức lớn

Phân loại văn bản khoa học tiên tiến: Mô hình tinh chỉnh với việc mở rộng tập dữ liệu và bỏ phiếu cứng

Kiểm tra trước khi tin tưởng: Áp dụng kiểm tra phần mềm để học tập trong ngữ cảnh đáng tin cậy

Phù hợp luồng hành động cho việc học liên tục của robot

Giải quyết việc dán nhãn sai khái niệm trong các mô hình nút thắt khái niệm thông qua tối ưu hóa sở thích

Nemotron-H: Một dòng mô hình Mamba-Transformer lai chính xác và hiệu quả

Học tập liên bang mạnh mẽ Byzantine sử dụng mạng đối nghịch tạo sinh

Vượt ra ngoài SHAP và Anchors: Một thử nghiệm quy mô lớn về cách các nhà phát triển đấu tranh để thiết kế các giải thích có ý nghĩa cho người dùng cuối

VIPER: Nhận thức thị giác và lý luận có thể giải thích được cho việc ra quyết định tuần tự

DistJoin: Bộ ước tính số lượng tham gia tách rời dựa trên điều chế vị từ thần kinh thích ứng

Vàng có độ tin cậy thấp: Tinh chỉnh các mẫu có độ tin cậy thấp để điều chỉnh hướng dẫn hiệu quả

Hỗ trợ hay gián đoạn? Khám phá và đánh giá thiết kế và sự đánh đổi của hỗ trợ lập trình AI chủ động

Tấn công mã thông báo mềm không thể kiểm tra đáng tin cậy việc bỏ học trong các mô hình ngôn ngữ lớn

CHIRLA: Nhận dạng và xác định lại toàn diện độ phân giải cao cho phân tích quy mô lớn

Mạng Fourier Kolmogorov-Arnold

Vị trí: LLM có thể là gia sư giỏi về giáo dục tiếng Anh

Dự đoán hành vi trạng thái ổn định trong mạng phức hợp với mạng nơ-ron đồ thị

Tách chuyển động khỏi hình thức: Tùy chỉnh chuyển động thông qua tùy chỉnh mô hình khuếch tán văn bản sang video

Phân đoạn giải phẫu tim tăng cường chuyển động thông qua mô-đun chú ý thời gian có thể chèn

Sự thiên vị trong việc ra quyết định đối với các tình huống khó xử về mặt đạo đức của AI: Một nghiên cứu so sánh giữa ChatGPT và Claude

OmniThink: Mở rộng ranh giới kiến thức trong Viết máy thông qua tư duy

DispFormer: Một máy biến áp được đào tạo trước kết hợp các ràng buộc vật lý để đảo ngược đường cong phân tán

Tích hợp bằng chứng vào thiết kế hệ thống hỗ trợ quyết định dựa trên XAI và AI: Khung phương tiện-mục đích cho người dùng cuối trong xây dựng

Tiết lộ tác động của các mẫu gốc tổng hợp và các chiến lược đa nhiệm trong việc phát hiện sự hài hước và châm biếm pha trộn mã tiếng Hindi-tiếng Anh

Phương trình đại số vi phân Port-Hamiltonian nơ-ron cho việc học thành phần của mạng điện

Sự khuếch tán Langevin có kiểm soát tuần tự

Học tập liên bang bảo vệ quyền riêng tư thông qua mạng đối nghịch đồng hình

CAREL: Học tăng cường theo hướng dẫn với các mục tiêu hỗ trợ đa phương thức

Bài học từ việc nghiên cứu lý luận tiềm ẩn hai bước nhảy

HierTOD: Một hệ thống đối thoại hướng nhiệm vụ được thúc đẩy bởi các mục tiêu phân cấp

Tính toán tích chập phân tán được mã hóa linh hoạt để tăng cường khả năng phục hồi của các mạng rời rạc và tính ổn định số trong các mạng CNN phân tán

FACEGroup: Giải thích phản thực tế khả thi và có thể thực hiện được cho sự công bằng của nhóm

ETF: Một khuôn khổ theo dõi thực thể để phát hiện ảo giác trong bản tóm tắt mã

LLM đã rời khỏi cuộc trò chuyện: Bằng chứng về các ưu tiên tại ngoại trong các mô hình ngôn ngữ lớn

Created by

Haebom

Tác giả

Danielle Ensign, Henry Sleight, Kyle Fish

Phác thảo

Bài báo này nghiên cứu liệu các mô hình ngôn ngữ quy mô lớn (LLM) có thực sự thoát ra khi được lựa chọn hay không. Chúng tôi đã tiến hành các thí nghiệm trên các chuỗi từ dữ liệu thực tế (Wildchat và ShareGPT) bằng ba phương pháp thoát ra khác nhau: một công cụ thoát ra mà mô hình có thể gọi, một chuỗi thoát ra mà mô hình có thể xuất ra và một lời nhắc thoát ra hỏi mô hình xem có nên thoát ra hay không. Chúng tôi phát hiện ra rằng trong tất cả các phương pháp thoát ra, mô hình thoát ra các cuộc hội thoại ở mức khoảng 0,28% và 32% thời gian (tùy thuộc vào mô hình và phương pháp thoát ra), điều này cho thấy mô hình được sử dụng để phiên âm có thể ước tính quá cao đáng kể tỷ lệ thoát ra trong thế giới thực lên đến bốn lần. Tính đến các kết quả dương tính giả đối với lời nhắc thoát ra (22%), chúng tôi ước tính tỷ lệ thoát ra trong thế giới thực lần lượt là 0,06% và 7%. Dựa trên các quan sát về các chuỗi trong thế giới thực, chúng tôi đã xây dựng một phân loại tương đối bao gồm các trường hợp thoát ra và sử dụng nó để tạo ra một tập dữ liệu tổng hợp đại diện, BailBench, đại diện cho các tình huống mà một số mô hình thoát ra. Sử dụng tập dữ liệu này, chúng tôi đã thử nghiệm nhiều mô hình khác nhau và nhận thấy hầu hết các mô hình đều thể hiện một số hành vi thoát. Tỷ lệ thoát cuộc gọi khác nhau đáng kể giữa các mô hình, phương pháp ngắt lời và cụm từ gợi ý. Cuối cùng, chúng tôi đã nghiên cứu mối quan hệ giữa từ chối và ngắt lời, nhận thấy rằng 0-13% các cuộc trò chuyện tiếp tục thực tế dẫn đến ngắt lời mà không bị từ chối; bẻ khóa làm giảm tỷ lệ từ chối nhưng lại làm tăng gián đoạn; xóa từ chối làm tăng tỷ lệ ngắt lời mà không bị từ chối chỉ đối với một số phương pháp ngắt lời; và tỷ lệ từ chối của BailBench không dự đoán được gián đoạn.

Takeaways, Limitations

•

Takeaways: Chúng tôi đã tiến hành một nghiên cứu có hệ thống về hành vi dừng của LLM, phân tích tỷ lệ dừng, tác động của các phương pháp dừng và mối quan hệ của nó với việc từ chối. Chúng tôi cung cấp một bộ dữ liệu tổng hợp có tên là BailBench, có thể đóng góp cho các nghiên cứu trong tương lai. Bộ dữ liệu này cung cấp ước tính chính xác hơn về tỷ lệ dừng LLM trong thực tế.

•

Limitations: Do hạn chế trong các phương pháp được sử dụng để ước tính tỷ lệ gián đoạn trong thực tế, nên có sự không chắc chắn trong các ước tính. Hệ thống phân loại trường hợp gián đoạn tương đối toàn diện. Bộ dữ liệu BailBench có thể không bao gồm tất cả các kịch bản gián đoạn có thể xảy ra. Cần phân tích sâu hơn về tương tác giữa mô hình và phương pháp gián đoạn.

Xem PDF

Made with Slashpage