Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

CEHR-XGPT: Mô hình nền tảng đa nhiệm có khả năng mở rộng cho hồ sơ sức khỏe điện tử

Tiết lộ phản ứng của các mô hình ngôn ngữ thị giác lớn đối với các mã thông báo không có trực quan

Chiến lược học tập thích ứng để phân loại hình thái nguyên phân trong thử thách MIDOG2025

MitoDetect++: Một quy trình mạnh mẽ cho việc phát hiện nguyên phân và phân nhóm bất thường

Căn chỉnh-Sau đó-Sắp xếp: Điều chỉnh các Mô hình Hành động Ngôn ngữ-Tầm nhìn thông qua Hướng dẫn Tiềm ẩn Thống nhất

Các công cụ tối ưu hóa tiền huấn luyện tuyệt vời và nơi tìm thấy chúng

Hướng tới định vị địa lý có thể diễn giải: Khung căn chỉnh hình ảnh-GPS toàn cầu có nhận thức về khái niệm

TECP: Dự đoán phù hợp Token-Entropy cho LLM

Bẫy phức tạp: Che dấu quan sát đơn giản hiệu quả như tóm tắt LLM cho quản lý bối cảnh tác nhân

Lập kế hoạch chuyển động động học theo kiểu đào tạo một lần, lập kế hoạch mọi lúc mọi nơi thông qua cây khuếch tán

Công bằng phù hợp với kỹ năng trong học tập đa tác nhân để hợp tác trong chăm sóc sức khỏe

Giảm thiểu ảo giác trong các mô hình TTS dựa trên LM thông qua căn chỉnh phân phối bằng GFlowNets

AgentArmor: Thực thi phân tích chương trình trên Agent Runtime Trace để phòng chống tấn công Prompt Injection

HuggingGraph: Hiểu về chuỗi cung ứng của hệ sinh thái LLM

Xu hướng an toàn thực phẩm trên khắp châu Âu: thông tin chi tiết từ cơ sở dữ liệu An toàn thực phẩm toàn diện châu Âu (CHEFS) với 392 triệu mục nhập

ĐơN giản nhưng hiệu quả: Một cách tiếp cận lý thuyết thông tin để định lượng sự không chắc chắn của nhiều LLM

BayesSDF: Ước tính độ bất định Laplacian dựa trên bề mặt cho hình học 3D với trường khoảng cách có dấu nơ-ron

Trao quyền cho Bridge Digital Twins bằng cách thu hẹp khoảng cách dữ liệu với một khuôn khổ tổng hợp thống nhất

ĐịNh lý các tính năng hội tụ: một giải pháp thay thế nguyên lý đầu tiên cho tính năng thần kinh Ansatz về cách mạng học các biểu diễn

Tạo cấu trúc tinh thể nhanh chóng bằng AI hướng tới môi trường địa phương mục tiêu

Những bước đầu tiên để nghe lén các đặc vụ LLM: Một nghiên cứu điển hình với lối chơi Dungeons & Dragons

TokUR: Ước tính độ bất định cấp mã thông báo cho suy luận mô hình ngôn ngữ lớn

Cắt qua quyền riêng tư: Một cuộc tấn công tái tạo dữ liệu dựa trên siêu phẳng trong học tập liên bang

AutoPDL: Tự động tối ưu hóa lời nhắc cho các tác nhân LLM

RailGoerl24: Bộ dữ liệu CV của Trung tâm thử nghiệm đường sắt G\"orlitz 2024

Tiết lộ các biểu diễn thần kinh bậc cao về sự không chắc chắn với mô hình Ước tính nhiễu thông qua khuếch tán dựa trên củng cố (NERD)

PromptGuard: Kiểm duyệt nội dung không an toàn theo hướng dẫn của Prompt cho các mô hình chuyển văn bản thành hình ảnh

Phát hiện dấu vết giả mạo cho công nghệ chống giả mạo khuôn mặt dựa trên học sâu

Nhận thức về bảo mật thông tin của các mô hình ngôn ngữ lớn

Tự động phát hiện các mẫu lừa đảo trực tuyến

HyperAgent: Các tác nhân kỹ thuật phần mềm tổng quát để giải quyết các tác vụ mã hóa ở quy mô lớn

Tự động phát hiện các tình trạng bệnh lý chưa được chẩn đoán thông qua hình ảnh cơ hội

Tối ưu hóa sở thích có chọn lọc thông qua ước tính hàm phần thưởng cấp mã thông báo

ATHAR: Bộ dữ liệu đa dạng và chất lượng cao dành cho bản dịch tiếng Ả Rập cổ điển sang tiếng Anh

PersonaGym: Đánh giá các tác nhân Persona và LLM

CFaults: Chẩn đoán dựa trên mô hình để xác định vị trí lỗi trong các chương trình C với nhiều trường hợp thử nghiệm

Từ Frege đến chatGPT: Tính tổng hợp trong ngôn ngữ, nhận thức và mạng lưới nơ-ron sâu

AnyGPT: LLM đa phương thức thống nhất với mô hình trình tự rời rạc

Giải mã các chuỗi, cây và biểu đồ suy nghĩ

Phân tích sinh tồn với chính quy đối nghịch

Net2Brain: Một hộp công cụ để so sánh các mô hình thị giác nhân tạo với phản ứng của não người

ẢO tưởng về tính cách: Tiết lộ sự tách biệt giữa tự báo cáo và hành vi trong LLM

PersonaTeaming: Khám phá cách giới thiệu Persona có thể cải thiện AI tự động hóa Red-Teaming

Báo cáo kỹ thuật UI-TARS-2: Nâng cao tác nhân GUI với học tăng cường nhiều vòng

Lập kế hoạch tác nhân đầu cơ động

AI-SearchPlanner: Tìm kiếm tác nhân mô-đun thông qua học tăng cường đa mục tiêu tối ưu Pareto

Đồ Thị RAG như một mô hình lựa chọn của con người: Xây dựng một tác nhân di động dựa trên dữ liệu với chuỗi ưu tiên

MHSNet: Mạng biểu diễn ngữ nghĩa phân cấp dựa trên MoE để phát hiện sơ yếu lý lịch trùng lặp chính xác với mô hình ngôn ngữ lớn

FutureX: Điểm chuẩn trực tiếp nâng cao dành cho các đại lý LLM trong dự đoán tương lai

MeLA: Kiến trúc siêu nhận thức được thúc đẩy bởi LLM cho thiết kế heuristic tự động

Giáo dục đàm thoại quy mô lớn: Quy trình làm việc của nhiều tác nhân LLM cho việc học theo thủ tục và đánh giá chất lượng sư phạm

DiMo-GUI: Nâng cao khả năng mở rộng thời gian kiểm tra trong GUI Grounding thông qua lý luận trực quan nhận biết phương thức

ĐừNg bịa đặt: Duy trì nhận thức về sự thiếu hiểu biết trong quá trình tinh chỉnh LLM

Biên dịch thuật toán học liên bang trong Python thành quy trình CSP bằng ChatGPT

ArtRAG: Thế hệ tăng cường truy xuất với bối cảnh có cấu trúc để hiểu nghệ thuật thị giác

Kỹ năng nhận thức: Lý luận về kiến thức và sự lãng quên

Tiến bộ của các tác nhân GUI di động: Một cách tiếp cận dựa trên trình xác minh để triển khai thực tế

ĐạI lý GUI: Một cuộc khảo sát

Xác minh mạng nơ-ron với PyRAT

Thuốc giải: Căn chỉnh an toàn sau khi tinh chỉnh cho các mô hình ngôn ngữ lớn để chống lại việc tinh chỉnh có hại

Nhúng đồ thị tri thức liên kết chiều thấp thông qua chưng cất tri thức

MMoE: Phát hiện Spoiler mạnh mẽ với thông tin đa phương thức và hỗn hợp chuyên gia có nhận thức về miền

WinT3R: Tái tạo luồng dựa trên cửa sổ với nhóm mã thông báo camera

Mã hóa chéo theo thời gian: Theo dõi sự xuất hiện và củng cố các biểu diễn ngôn ngữ trong suốt quá trình tiền đào tạo LLM

Báo cáo kỹ thuật SpikingBrain: Các mô hình lớn lấy cảm hứng từ Spiking Brain

Hiệu suất mở rộng của tiền huấn luyện mô hình ngôn ngữ lớn

Recomposer: Chỉnh sửa âm thanh tạo ra theo sự kiện

COGITAO: Một khuôn khổ lý luận trực quan để nghiên cứu tính tổng hợp và khái quát hóa

Không chắc chắn nhưng hữu ích: Tận dụng tính biến thiên của CNN để tăng cường dữ liệu

CURE: Kiểm soát việc bỏ học để nhúng mạnh mẽ -- Giảm thiểu các lối tắt khái niệm trong các mô hình ngôn ngữ được đào tạo trước

HoPE: Mã hóa vị trí quay Hyperbolic cho mô hình phụ thuộc tầm xa ổn định trong các mô hình ngôn ngữ lớn

RapidGNN: Đào tạo phân tán hiệu quả về năng lượng và truyền thông trên mạng nơ-ron đồ thị quy mô lớn

Nâng cao phân loại đám mây điểm 3D với ModelNet-R và Point-SkipNet

Tác nhân AI cho thử nghiệm web: Một nghiên cứu điển hình trong thực tế

Cắt tỉa CNN có giới hạn độ chính xác để phát hiện cơn động kinh dựa trên EEG hiệu quả và đáng tin cậy

Khám phá tính ổn định của hệ thống tạo nhịp điệu thông qua kiểm tra chéo biến phân

Tạo và thực thi trường hợp thử nghiệm dựa trên GenAI trên nền tảng SDV

ICR: Làm rõ và viết lại theo chu kỳ cho tìm kiếm hội thoại

ToM-SSI: Đánh giá Lý thuyết Tâm trí trong Tương tác Xã hội Tình huống

Hướng tới việc dán nhãn điểm ảnh hiệu quả để phát hiện và định vị bất thường trong công nghiệp

ƯớC tính mục tiêu hướng dẫn bằng cách chỉ điểm thông qua sự chú ý dựa trên máy biến áp

Tăng cường đối kháng và lấy mẫu chủ động để phát hiện bất thường mạng mạnh mẽ

Hệ thống đa tác nhân hỗ trợ LLM cho mạng 6G: Khung và phương pháp cộng tác đầu cuối biên vòng kép

Thu thập nhiệt độ bề mặt đất toàn cầu độ phân giải cao thông qua khuôn khổ học máy kết hợp cơ chế

Khám phá việc triển khai đường ống học lượng tử cho máy vectơ hỗ trợ

DeGuV: Học tăng cường thị giác hướng dẫn sâu để khái quát hóa và diễn giải trong thao tác

Trí tuệ nhân tạo để biểu diễn và mô tả các hệ thống lượng tử

Báo cáo kỹ thuật PLaMo 2

SpiderNets: Ước tính mức độ sợ hãi của hình ảnh liên quan đến nhện bằng mô hình thị giác

Nghịch lý của sự diệt vong: Việc thừa nhận nguy cơ tuyệt chủng làm giảm động lực ngăn chặn nó

Chính sách phổ biến kiến thức cho việc lái xe tự động toàn diện dựa trên định tuyến chuyên gia

REMOTE: Một khuôn khổ trích xuất quan hệ đa phương thức thống nhất với vận chuyển tối ưu đa cấp và hỗn hợp chuyên gia

PropVG: Nền tảng trực quan dựa trên đề xuất đầu cuối với khả năng phân biệt đa chi tiết

Khám phá mối tương quan không gian-góc phi cục bộ với khuôn khổ Mamba-Transformer lai cho siêu phân giải trường ánh sáng

Nén liên kết Fronthaul do AI điều khiển trong hệ thống truyền thông không dây: Đánh giá và thiết kế phương pháp

Hướng tới Da liễu dễ tiếp cận: Phân loại tổn thương da bằng mô hình học sâu trên hình ảnh thu được từ thiết bị di động

Bỏ học đồ thị: Loại bỏ nút hiệu quả trong mạng nơ-ron đồ thị

Tăng cường tính đa dạng trong các mô hình ngôn ngữ lớn thông qua các quy trình điểm xác định

Bộ chuyển đổi nâng cao VARMA cho dự báo chuỗi thời gian

LLM đã rời khỏi cuộc trò chuyện: Bằng chứng về các ưu tiên tại ngoại trong các mô hình ngôn ngữ lớn

PersonaTeaming: Khám phá cách giới thiệu Persona có thể cải thiện AI tự động hóa Red-Teaming

Created by

Haebom

Tác giả

Wesley Hanwen Deng, Sunnie SY Kim, Akshita Jha, Ken Holstein, Motahare Eslami, Lauren Wilcox, Leon A Gatys

Phác thảo

Bài báo này xem xét các hoạt động nhóm đỏ (red teaming) để phát hiện hiệu quả các rủi ro tiềm ẩn trong các mô hình AI. Chúng tôi chỉ ra rằng các phương pháp nhóm đỏ tự động hiện có chưa tính đến bối cảnh và danh tính của con người, và đề xuất PersonaTeaming, một phương pháp mới để khám phá các chiến lược đối kháng đa dạng bằng cách sử dụng các cá tính. Chúng tôi phát triển một phương pháp để điều chỉnh các gợi ý dựa trên các cá tính, chẳng hạn như "chuyên gia nhóm đỏ" hoặc "người dùng AI nói chung", và một thuật toán để tự động tạo ra các loại cá tính khác nhau. Chúng tôi cũng đề xuất một thước đo mới để đo lường tính đa dạng của các gợi ý đối kháng. Kết quả thử nghiệm cho thấy PersonaTeaming cải thiện tỷ lệ thành công của các cuộc tấn công lên đến 144,1% so với phương pháp tiên tiến hiện có, RainbowPlus. Chúng tôi thảo luận về ưu và nhược điểm của các loại cá tính và phương pháp điều chỉnh khác nhau, đồng thời đề xuất các hướng nghiên cứu trong tương lai để khám phá tính bổ sung giữa các phương pháp nhóm đỏ tự động và phương pháp nhóm đỏ của con người.

Takeaways, Limitations

•

Takeaways:

◦

Một phương pháp mới tích hợp danh tính và lý lịch của con người vào các hoạt động nhóm đỏ tự động.

◦

Đã Xác nhận hiệu quả của việc cải thiện tỷ lệ thành công của cuộc tấn công vào các mục tiêu thù địch thông qua PersonaTeaming.

◦

Phát triển một thước đo mới để đo lường sự đa dạng của các lời nhắc đối nghịch

◦

Một hướng nghiên cứu mới về tính bổ sung giữa phương pháp tiếp cận tự động và phương pháp tiếp cận của đội đỏ.

•

Limitations:

◦

Hiện tại, PersonaTeaming chỉ giới hạn ở một số loại nhân vật và phương pháp biến hình nhất định. Cần nghiên cứu thêm để khám phá phạm vi rộng hơn về các loại nhân vật và phương pháp biến hình.

◦

Cần phải xác nhận thêm về khả năng tổng quát hóa của các chỉ số đã phát triển.

◦

Có khả năng là những rủi ro phức tạp của thế giới thực có thể không được nắm bắt đầy đủ.

◦

Cần có thêm nghiên cứu về sự thiên vị và các cân nhắc về mặt đạo đức của thuật toán tạo nhân vật.

Xem PDF

Made with Slashpage