Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Chuyển đổi cấu trúc: Phép tính dựa trên suy luận để chuyển đổi các biểu diễn

Tập hợp các mô hình nền tảng bệnh lý học cho MIDOG 2025 Đường dẫn 2: Phân loại nguyên phân không điển hình

AudioCodecBench: Điểm chuẩn toàn diện để đánh giá bộ giải mã âm thanh

Hiểu về Không gian là Khoa học Tên lửa -- Chỉ những Mô hình Lý luận Hàng đầu mới có thể Giải quyết các Nhiệm vụ Hiểu về Không gian

DaMoC: Lựa chọn hiệu quả mô hình ngôn ngữ lớn tối ưu để tinh chỉnh các tác vụ miền dựa trên nén dữ liệu và mô hình

Kỹ thuật mô-đun để tạo dữ liệu ngữ cảnh dài tổng hợp trong đào tạo và đánh giá mô hình ngôn ngữ

EZhouNet: Một khuôn khổ dựa trên mạng nơ-ron đồ thị và khoảng neo để phát hiện sự kiện âm thanh hô hấp

AImoclips: Một chuẩn mực để đánh giá khả năng truyền tải cảm xúc trong quá trình chuyển văn bản thành nhạc

TimeCopilot

RL dựa trên mô hình bậc nhất thông qua lan truyền ngược tách rời

Nghiên cứu thí điểm về AI tạo sinh và tư duy phản biện trong lớp học đại học

Beacon: Lượng tử hóa sau đào tạo với lựa chọn lưới tích hợp

Trí tuệ nhân tạo có đang định hình lại bối cảnh của cộng đồng khoa học địa chất quốc tế không?

Sự chú ý được vectơ hóa với mã hóa có thể học được cho máy biến áp lượng tử

Cấy ghép rồi tái tạo: Một mô hình mới để tăng cường dữ liệu văn bản

Sự phối hợp chiều sâu-chiều rộng trong RLVR: Mở khóa lợi ích của lý luận LLM với Khám phá thích ứng

MultiGen: Máy phát âm đa ngôn ngữ thân thiện với trẻ em có bằng LLM

StreetViewAI: Làm cho Street View dễ tiếp cận hơn bằng cách sử dụng AI đa phương thức nhận biết ngữ cảnh

AI cấp độ đường phố: Các mô hình ngôn ngữ lớn đã sẵn sàng cho các phán đoán trong thế giới thực chưa?

Ngôn ngữ lược đồ khái niệm KG-ER

RẤT NHIỀU Thời Trang! Đa Điều Kiện để Tạo Hình Ảnh thông qua Ghép Nối Phác Thảo-Văn Bản

Tạo video có điều kiện để nén video hiệu quả cao

TriCLIP-3D: Một khuôn khổ thống nhất hiệu quả về tham số cho nền tảng trực quan 3D ba mô hình dựa trên CLIP

Phân loại chi tiết về gãy xương cổ tay ở trẻ em dựa trên đặc điểm nhân khẩu học

Phân tích các phương pháp hành động-giá trị-thời gian-chênh lệch để học các giá trị trạng thái

Phân tích tham số ngẫu nhiên

Tự động hồi quy so với khớp dòng chảy: Nghiên cứu so sánh các mô hình mô hình hóa cho quá trình tạo văn bản thành nhạc

MiniCPM4: LLM siêu hiệu quả trên thiết bị đầu cuối

ĐáNh giá hiệu quả của lý luận dựa trên LLM cho lập lịch công việc HPC đa mục tiêu

Làm thế nào tôi có thể công bố điểm chuẩn LLM của mình mà không tiết lộ câu trả lời thực sự?

Tối ưu hóa khả năng chuyển đổi mô-đun trong siêu phân giải hình ảnh đơn: Đánh giá tính phổ quát và khối dư chu kỳ

Bộ chuyển đổi mặt nạ có thể chuyển nhượng: Phân đoạn ngữ nghĩa xuyên miền với ước tính khả năng chuyển nhượng thích ứng theo vùng

RBT4DNN: Kiểm tra mạng nơ-ron dựa trên yêu cầu

Học mô phỏng ngoại tuyến mạnh mẽ thông qua khâu quỹ đạo cấp trạng thái

Vượt ra ngoài ảnh ba chiều: nền tảng hấp dẫn lượng tử entropy của xử lý hình ảnh

KNighter: Chuyển đổi Phân tích Tĩnh với Bộ kiểm tra Tổng hợp LLM

FRIDA Cứu Hộ! Phân Tích Hiệu Quả Dữ Liệu Tổng Hợp Trong Lý Luận Thường Thức Dựa Trên Đối Tượng Để Ứng Phó Thảm Họa

CoDiff: Mô hình khuếch tán có điều kiện để phát hiện đối tượng 3D cộng tác

Học từ nhanh thông qua học tập trong ngữ cảnh siêu văn bản

Phương pháp lấy mẫu nhúng hình ảnh cho phụ đề đa dạng

Mô hình nền dựa trên hình ảnh tự nhiên cực lớn có vượt trội hơn mô hình võng mạc trong việc phát hiện các bệnh về mắt và hệ thống không?

ĐIểm ngoại lệ dựa trên biểu đồ mở rộng (EHBOS)

Khảo sát về thế hệ tăng cường truy xuất đồ thị cho các mô hình ngôn ngữ lớn tùy chỉnh

Phá vỡ nút thắt bối cảnh trong dự báo chuỗi thời gian dài

Bảo vệ LVLM khỏi các cuộc tấn công thị giác thông qua giám sát nhận thức một phần

ACING: Diễn viên-Nhà phê bình cho việc học hướng dẫn trong LLM hộp đen

Học tập trải nghiệm dựa trên Kolb dành cho các tác nhân tổng quát với hiệu suất khoa học dữ liệu Kaggle ở cấp độ con người

ĐịNh lượng lỗi hiệu chuẩn trong mạng nơ-ron thông qua lý thuyết dựa trên bằng chứng

ĐàO tạo mạnh mẽ các mô hình sinh ngầm cho phân phối đa biến và phân phối đuôi nặng với tổn thất thống kê bất biến

Học hỏi từ 10 bản demo: Học chính sách có thể tổng quát hóa và hiệu quả theo mẫu với khung khả năng chi trả định hướng

AutoPETIII: The Tracer Frontier. Frontier nào cơ?

Mạng chuỗi đầu vào dài cho dự báo chuỗi thời gian dài

FFHFlow: Tạo ra sự nắm bắt khéo léo đa dạng và nhận thức được sự không chắc chắn thông qua suy luận biến thiên dòng chảy

Unisolver: Bộ biến đổi có điều kiện PDE hướng tới bộ giải PDE thần kinh phổ quát

MTP: Một ngôn ngữ trừu tượng có kiểu ý nghĩa dành cho lập trình tích hợp AI

Sự khuếch tán trên các mã hóa mô hình ngôn ngữ để tạo ra trình tự protein

Chuyển đổi phong cách sang truyện tranh Calvin và Hobbes bằng cách sử dụng Stable Diffusion

Tự động hóa, không phải tự động hóa: Hoạt động và nhu cầu của các nhà kiểm tra thực tế châu Âu làm cơ sở để thiết kế các hệ thống AI lấy con người làm trung tâm

Xác minh kế hoạch cho các tác nhân hoàn thành nhiệm vụ cụ thể dựa trên LLM

EigenBench: Một thước đo hành vi so sánh về sự phù hợp giá trị

Oyster-I: Vượt ra ngoài sự từ chối -- Sự liên kết an toàn mang tính xây dựng cho các mô hình ngôn ngữ có trách nhiệm

Mở rộng FKG.in: Hướng tới mạng lưới truy xuất nguồn gốc thực phẩm

DeepVIS: Kết nối ngôn ngữ tự nhiên và trực quan hóa dữ liệu thông qua suy luận từng bước

Lý thuyết về tâm trí sử dụng suy luận chủ động: Một khuôn khổ cho sự hợp tác của nhiều tác nhân

CP-Bench: Đánh giá các mô hình ngôn ngữ lớn để mô hình hóa ràng buộc

Tiên đề của các lựa chọn hạn chế theo thứ tự tuyến tính của các tập hợp với giá trị tối thiểu làm dự phòng

Hướng dẫn bằng DMN: Khung kiểm soát hành vi LLM

Cơ sở tính toán của việc ra quyết định của LLM trong mô phỏng xã hội

Khoa học xuyên ngôn ngữ: Đánh giá bản dịch đa ngôn ngữ của các bài báo khoa học LLM

Nâng cao FKG.in: tự động hóa phân tích thành phần thực phẩm Ấn Độ

WASP: Một phương pháp tiếp cận không gian trọng số để phát hiện sự giả mạo đã học

Mô hình niềm tin có thể chuyển giao trên mạch lượng tử

PIN: Bộ dữ liệu chuyên sâu về kiến thức dành cho các tài liệu đa phương thức được ghép nối và xen kẽ

(Phi) lý tính trong AI: Tình hình hiện tại, Thách thức nghiên cứu và Câu hỏi mở

Sách nhập môn về tình báo

ChronoGraph: Bộ dữ liệu chuỗi thời gian đa biến dựa trên đồ thị thực tế

Kích hoạt Delta: Một biểu diễn cho các mô hình ngôn ngữ lớn được tinh chỉnh

DEXOP: Thiết bị chuyển giao thao tác khéo léo của con người bằng robot

Hướng tới một cái nhìn thống nhất về mô hình ngôn ngữ lớn sau đào tạo

Không suy nghĩ, chỉ AI: Các khuyến nghị LLM thiên vị hạn chế khả năng của con người trong việc sàng lọc sơ yếu lý lịch

IPA: Khung dự báo đầu vào bảo toàn thông tin cho việc điều chỉnh mô hình nền tảng hiệu quả

SSGaussian: Chuyển đổi phong cách 3D có nhận thức về ngữ nghĩa và bảo toàn cấu trúc

Dự đoán khả năng đỗ xe thông qua việc kết hợp dữ liệu đa nguồn với bộ biến đổi đảo ngược không gian-thời gian được tăng cường tự giám sát

PARCO: ASR ngữ cảnh mạnh mẽ được tăng cường âm vị thông qua việc loại bỏ sự mơ hồ của thực thể tương phản

AUDETER: Bộ dữ liệu quy mô lớn để phát hiện âm thanh Deepfake trong thế giới mở

Từ Trình soạn thảo đến Trình ước tính hình học dày đặc

Học biểu diễn thực thể tách rời để xếp hạng quảng cáo trên Pinterest

Sự thật phai mờ nhanh chóng: Đánh giá khả năng ghi nhớ kiến thức y khoa lỗi thời trong các mô hình ngôn ngữ lớn

HumAine-Chatbot: AI đàm thoại cá nhân hóa theo thời gian thực thông qua học tăng cường

Học tăng cường để kiểm soát mạnh mẽ các hệ thống pin Li-ion có nhận thức về lão hóa với xác minh chính thức dựa trên dữ liệu

Nghiên cứu thực nghiệm về lỗ hổng trong các gói Python và cách phát hiện chúng

Chúng ta có thể cứu được bao nhiêu bệnh nhân với bằng LLM trước đây?

Học nhận thức chủ động thông qua tối ưu hóa sở thích tự phát triển để xây dựng nền tảng GUI

MAGneT: Phối hợp nhiều tác nhân tạo ra các buổi tư vấn sức khỏe tâm thần tổng hợp nhiều lượt

VisioFirm: Công cụ chú thích hỗ trợ AI đa nền tảng cho thị giác máy tính

Vượt qua ranh giới giữa các loài: Chuyển giao kiến thức từ lời nói sang âm thanh động vật

YOLO Ensemble dùng UAV để phát hiện khuyết tật đa phổ trong các thành phần của tuabin gió

Sự chú ý như một bộ lọc thích ứng

TAGAL: Tạo dữ liệu dạng bảng bằng phương pháp Agentic LLM

Nâng cao khả năng truy xuất tài liệu kỹ thuật cho RAG

AI cấp độ đường phố: Các mô hình ngôn ngữ lớn đã sẵn sàng cho các phán đoán trong thế giới thực chưa?

Created by

Haebom

Tác giả

Gaurab Pokharel, Shafkat Farabi, Patrick J. Fowler, Sanmay Das

Phác thảo

Bài báo này đánh giá các nghiên cứu gần đây khám phá những tác động về mặt đạo đức và xã hội của các mô hình AI quy mô lớn khi đưa ra những phán đoán "đạo đức". Trong khi các nghiên cứu trước đây chủ yếu tập trung vào sự phù hợp với phán đoán của con người thông qua các thí nghiệm tư duy khác nhau hoặc tính công bằng tập thể của phán đoán AI, bài báo này tập trung vào ứng dụng trực tiếp và đầy hứa hẹn nhất của AI: hỗ trợ hoặc thay thế các quan chức tuyến đầu trong việc xác định phân bổ nguồn lực xã hội khan hiếm hoặc phê duyệt phúc lợi. Dựa trên nền tảng lịch sử phong phú về cách các xã hội xác định cơ chế ưu tiên để phân bổ nguồn lực khan hiếm, bài báo này sử dụng dữ liệu thực tế về nhu cầu dịch vụ cho người vô gia cư để xem xét mức độ phù hợp giữa các phán đoán của LLM với phán đoán của con người và các hệ thống chấm điểm mức độ dễ bị tổn thương hiện đang được sử dụng (để bảo mật dữ liệu, chỉ các mô hình quy mô lớn, cục bộ mới được sử dụng). Phân tích cho thấy sự không nhất quán đáng kể trong các quyết định ưu tiên của LLM trên nhiều khía cạnh: giữa các lần triển khai, giữa các LLM và giữa các LLM với các hệ thống chấm điểm mức độ dễ bị tổn thương. Đồng thời, các LLM thể hiện sự đồng thuận về mặt định tính với phán đoán điển hình của con người trong các bài kiểm tra so sánh hai chiều. Những kết quả này cho thấy các hệ thống AI thế hệ hiện tại đơn giản là chưa sẵn sàng để được tích hợp vào quá trình ra quyết định xã hội mang tính rủi ro cao.

Takeaways, Limitations

•

Takeaways: Các chương trình LLM hiện tại cho thấy độ tin cậy chưa đủ để sử dụng trực tiếp trong việc ra quyết định xã hội có rủi ro cao (ví dụ: phân bổ nguồn lực khan hiếm). Mặc dù các đánh giá của LLM phù hợp với đánh giá của con người ở một số khía cạnh, nhưng chúng thiếu tính nhất quán nội tại và nhất quán với các hệ thống khác. Các phân tích sử dụng dữ liệu thực tế mang lại những hàm ý quan trọng cho khả năng ứng dụng thực tế của các hệ thống AI.

•

Limitations: Nghiên cứu này chỉ giới hạn trong một lĩnh vực cụ thể (phân bổ nguồn lực cho người vô gia cư) và khả năng khái quát hóa sang các lĩnh vực ra quyết định xã hội khác còn hạn chế. Mặc dù tính bảo mật dữ liệu được duy trì bằng cách chỉ sử dụng các mô hình quy mô lớn, mang tính khu vực, nhưng không thể loại trừ khả năng các đặc điểm của mô hình có thể ảnh hưởng đến kết quả. Tính nhất quán về mặt định tính của các bằng Thạc sĩ Luật (LLM) có thể mang tính chủ quan hơn so với các biện pháp định lượng.

Xem PDF

Made with Slashpage