Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

CEHR-XGPT: Mô hình nền tảng đa nhiệm có khả năng mở rộng cho hồ sơ sức khỏe điện tử

Tiết lộ phản ứng của các mô hình ngôn ngữ thị giác lớn đối với các mã thông báo không có trực quan

Chiến lược học tập thích ứng để phân loại hình thái nguyên phân trong thử thách MIDOG2025

MitoDetect++: Một quy trình mạnh mẽ cho việc phát hiện nguyên phân và phân nhóm bất thường

Căn chỉnh-Sau đó-Sắp xếp: Điều chỉnh các Mô hình Hành động Ngôn ngữ-Tầm nhìn thông qua Hướng dẫn Tiềm ẩn Thống nhất

Các công cụ tối ưu hóa tiền huấn luyện tuyệt vời và nơi tìm thấy chúng

Hướng tới định vị địa lý có thể diễn giải: Khung căn chỉnh hình ảnh-GPS toàn cầu có nhận thức về khái niệm

TECP: Dự đoán phù hợp Token-Entropy cho LLM

Bẫy phức tạp: Che dấu quan sát đơn giản hiệu quả như tóm tắt LLM cho quản lý bối cảnh tác nhân

Lập kế hoạch chuyển động động học theo kiểu đào tạo một lần, lập kế hoạch mọi lúc mọi nơi thông qua cây khuếch tán

Công bằng phù hợp với kỹ năng trong học tập đa tác nhân để hợp tác trong chăm sóc sức khỏe

Giảm thiểu ảo giác trong các mô hình TTS dựa trên LM thông qua căn chỉnh phân phối bằng GFlowNets

AgentArmor: Thực thi phân tích chương trình trên Agent Runtime Trace để phòng chống tấn công Prompt Injection

HuggingGraph: Hiểu về chuỗi cung ứng của hệ sinh thái LLM

Xu hướng an toàn thực phẩm trên khắp châu Âu: thông tin chi tiết từ cơ sở dữ liệu An toàn thực phẩm toàn diện châu Âu (CHEFS) với 392 triệu mục nhập

ĐơN giản nhưng hiệu quả: Một cách tiếp cận lý thuyết thông tin để định lượng sự không chắc chắn của nhiều LLM

BayesSDF: Ước tính độ bất định Laplacian dựa trên bề mặt cho hình học 3D với trường khoảng cách có dấu nơ-ron

Trao quyền cho Bridge Digital Twins bằng cách thu hẹp khoảng cách dữ liệu với một khuôn khổ tổng hợp thống nhất

ĐịNh lý các tính năng hội tụ: một giải pháp thay thế nguyên lý đầu tiên cho tính năng thần kinh Ansatz về cách mạng học các biểu diễn

Tạo cấu trúc tinh thể nhanh chóng bằng AI hướng tới môi trường địa phương mục tiêu

Những bước đầu tiên để nghe lén các đặc vụ LLM: Một nghiên cứu điển hình với lối chơi Dungeons & Dragons

TokUR: Ước tính độ bất định cấp mã thông báo cho suy luận mô hình ngôn ngữ lớn

Cắt qua quyền riêng tư: Một cuộc tấn công tái tạo dữ liệu dựa trên siêu phẳng trong học tập liên bang

AutoPDL: Tự động tối ưu hóa lời nhắc cho các tác nhân LLM

RailGoerl24: Bộ dữ liệu CV của Trung tâm thử nghiệm đường sắt G\"orlitz 2024

Tiết lộ các biểu diễn thần kinh bậc cao về sự không chắc chắn với mô hình Ước tính nhiễu thông qua khuếch tán dựa trên củng cố (NERD)

PromptGuard: Kiểm duyệt nội dung không an toàn theo hướng dẫn của Prompt cho các mô hình chuyển văn bản thành hình ảnh

Phát hiện dấu vết giả mạo cho công nghệ chống giả mạo khuôn mặt dựa trên học sâu

Nhận thức về bảo mật thông tin của các mô hình ngôn ngữ lớn

Tự động phát hiện các mẫu lừa đảo trực tuyến

HyperAgent: Các tác nhân kỹ thuật phần mềm tổng quát để giải quyết các tác vụ mã hóa ở quy mô lớn

Tự động phát hiện các tình trạng bệnh lý chưa được chẩn đoán thông qua hình ảnh cơ hội

Tối ưu hóa sở thích có chọn lọc thông qua ước tính hàm phần thưởng cấp mã thông báo

ATHAR: Bộ dữ liệu đa dạng và chất lượng cao dành cho bản dịch tiếng Ả Rập cổ điển sang tiếng Anh

PersonaGym: Đánh giá các tác nhân Persona và LLM

CFaults: Chẩn đoán dựa trên mô hình để xác định vị trí lỗi trong các chương trình C với nhiều trường hợp thử nghiệm

Từ Frege đến chatGPT: Tính tổng hợp trong ngôn ngữ, nhận thức và mạng lưới nơ-ron sâu

AnyGPT: LLM đa phương thức thống nhất với mô hình trình tự rời rạc

Giải mã các chuỗi, cây và biểu đồ suy nghĩ

Phân tích sinh tồn với chính quy đối nghịch

Net2Brain: Một hộp công cụ để so sánh các mô hình thị giác nhân tạo với phản ứng của não người

ẢO tưởng về tính cách: Tiết lộ sự tách biệt giữa tự báo cáo và hành vi trong LLM

PersonaTeaming: Khám phá cách giới thiệu Persona có thể cải thiện AI tự động hóa Red-Teaming

Báo cáo kỹ thuật UI-TARS-2: Nâng cao tác nhân GUI với học tăng cường nhiều vòng

Lập kế hoạch tác nhân đầu cơ động

AI-SearchPlanner: Tìm kiếm tác nhân mô-đun thông qua học tăng cường đa mục tiêu tối ưu Pareto

Đồ Thị RAG như một mô hình lựa chọn của con người: Xây dựng một tác nhân di động dựa trên dữ liệu với chuỗi ưu tiên

MHSNet: Mạng biểu diễn ngữ nghĩa phân cấp dựa trên MoE để phát hiện sơ yếu lý lịch trùng lặp chính xác với mô hình ngôn ngữ lớn

FutureX: Điểm chuẩn trực tiếp nâng cao dành cho các đại lý LLM trong dự đoán tương lai

MeLA: Kiến trúc siêu nhận thức được thúc đẩy bởi LLM cho thiết kế heuristic tự động

Giáo dục đàm thoại quy mô lớn: Quy trình làm việc của nhiều tác nhân LLM cho việc học theo thủ tục và đánh giá chất lượng sư phạm

DiMo-GUI: Nâng cao khả năng mở rộng thời gian kiểm tra trong GUI Grounding thông qua lý luận trực quan nhận biết phương thức

ĐừNg bịa đặt: Duy trì nhận thức về sự thiếu hiểu biết trong quá trình tinh chỉnh LLM

Biên dịch thuật toán học liên bang trong Python thành quy trình CSP bằng ChatGPT

ArtRAG: Thế hệ tăng cường truy xuất với bối cảnh có cấu trúc để hiểu nghệ thuật thị giác

Kỹ năng nhận thức: Lý luận về kiến thức và sự lãng quên

Tiến bộ của các tác nhân GUI di động: Một cách tiếp cận dựa trên trình xác minh để triển khai thực tế

ĐạI lý GUI: Một cuộc khảo sát

Xác minh mạng nơ-ron với PyRAT

Thuốc giải: Căn chỉnh an toàn sau khi tinh chỉnh cho các mô hình ngôn ngữ lớn để chống lại việc tinh chỉnh có hại

Nhúng đồ thị tri thức liên kết chiều thấp thông qua chưng cất tri thức

MMoE: Phát hiện Spoiler mạnh mẽ với thông tin đa phương thức và hỗn hợp chuyên gia có nhận thức về miền

WinT3R: Tái tạo luồng dựa trên cửa sổ với nhóm mã thông báo camera

Mã hóa chéo theo thời gian: Theo dõi sự xuất hiện và củng cố các biểu diễn ngôn ngữ trong suốt quá trình tiền đào tạo LLM

Báo cáo kỹ thuật SpikingBrain: Các mô hình lớn lấy cảm hứng từ Spiking Brain

Hiệu suất mở rộng của tiền huấn luyện mô hình ngôn ngữ lớn

Recomposer: Chỉnh sửa âm thanh tạo ra theo sự kiện

COGITAO: Một khuôn khổ lý luận trực quan để nghiên cứu tính tổng hợp và khái quát hóa

Không chắc chắn nhưng hữu ích: Tận dụng tính biến thiên của CNN để tăng cường dữ liệu

CURE: Kiểm soát việc bỏ học để nhúng mạnh mẽ -- Giảm thiểu các lối tắt khái niệm trong các mô hình ngôn ngữ được đào tạo trước

HoPE: Mã hóa vị trí quay Hyperbolic cho mô hình phụ thuộc tầm xa ổn định trong các mô hình ngôn ngữ lớn

RapidGNN: Đào tạo phân tán hiệu quả về năng lượng và truyền thông trên mạng nơ-ron đồ thị quy mô lớn

Nâng cao phân loại đám mây điểm 3D với ModelNet-R và Point-SkipNet

Tác nhân AI cho thử nghiệm web: Một nghiên cứu điển hình trong thực tế

Cắt tỉa CNN có giới hạn độ chính xác để phát hiện cơn động kinh dựa trên EEG hiệu quả và đáng tin cậy

Khám phá tính ổn định của hệ thống tạo nhịp điệu thông qua kiểm tra chéo biến phân

Tạo và thực thi trường hợp thử nghiệm dựa trên GenAI trên nền tảng SDV

ICR: Làm rõ và viết lại theo chu kỳ cho tìm kiếm hội thoại

ToM-SSI: Đánh giá Lý thuyết Tâm trí trong Tương tác Xã hội Tình huống

Hướng tới việc dán nhãn điểm ảnh hiệu quả để phát hiện và định vị bất thường trong công nghiệp

ƯớC tính mục tiêu hướng dẫn bằng cách chỉ điểm thông qua sự chú ý dựa trên máy biến áp

Tăng cường đối kháng và lấy mẫu chủ động để phát hiện bất thường mạng mạnh mẽ

Hệ thống đa tác nhân hỗ trợ LLM cho mạng 6G: Khung và phương pháp cộng tác đầu cuối biên vòng kép

Thu thập nhiệt độ bề mặt đất toàn cầu độ phân giải cao thông qua khuôn khổ học máy kết hợp cơ chế

Khám phá việc triển khai đường ống học lượng tử cho máy vectơ hỗ trợ

DeGuV: Học tăng cường thị giác hướng dẫn sâu để khái quát hóa và diễn giải trong thao tác

Trí tuệ nhân tạo để biểu diễn và mô tả các hệ thống lượng tử

Báo cáo kỹ thuật PLaMo 2

SpiderNets: Ước tính mức độ sợ hãi của hình ảnh liên quan đến nhện bằng mô hình thị giác

Nghịch lý của sự diệt vong: Việc thừa nhận nguy cơ tuyệt chủng làm giảm động lực ngăn chặn nó

Chính sách phổ biến kiến thức cho việc lái xe tự động toàn diện dựa trên định tuyến chuyên gia

REMOTE: Một khuôn khổ trích xuất quan hệ đa phương thức thống nhất với vận chuyển tối ưu đa cấp và hỗn hợp chuyên gia

PropVG: Nền tảng trực quan dựa trên đề xuất đầu cuối với khả năng phân biệt đa chi tiết

Khám phá mối tương quan không gian-góc phi cục bộ với khuôn khổ Mamba-Transformer lai cho siêu phân giải trường ánh sáng

Nén liên kết Fronthaul do AI điều khiển trong hệ thống truyền thông không dây: Đánh giá và thiết kế phương pháp

Hướng tới Da liễu dễ tiếp cận: Phân loại tổn thương da bằng mô hình học sâu trên hình ảnh thu được từ thiết bị di động

Bỏ học đồ thị: Loại bỏ nút hiệu quả trong mạng nơ-ron đồ thị

Tăng cường tính đa dạng trong các mô hình ngôn ngữ lớn thông qua các quy trình điểm xác định

Bộ chuyển đổi nâng cao VARMA cho dự báo chuỗi thời gian

LLM đã rời khỏi cuộc trò chuyện: Bằng chứng về các ưu tiên tại ngoại trong các mô hình ngôn ngữ lớn

Báo cáo kỹ thuật PLaMo 2

Created by

Haebom

Tác giả

Mạng ưa thích, :, Kaizaburo Chubachi, Yasuhiro Fujita, Shinichi Hemmi, Yuta Hirokawa, Toshiki Kataoka, Goro Kobayashi, Kenichi Maehashi, Calvin Metzger, Hiroaki Mikami, Shogo Murai, Daisuke Nishino, Kento Nozawa, Shintarou Okada, Daisuke Okanohara, Shunta Saito, Shotaro Sano, Shuji Suzuki, Daisuke Tanaka, Avinash Ummadisingu, Hanqin Wang, Sixue Wang, Tianqi Xu

Phác thảo

PLaMo 2 là một loạt các mô hình ngôn ngữ quy mô lớn chuyên biệt cho tiếng Nhật. Nó sử dụng kiến trúc lai dựa trên Samba và, thông qua quá trình tiền huấn luyện liên tục, chuyển sang trạng thái tập trung hoàn toàn, hỗ trợ 32K ngữ cảnh mã thông báo. Để giải quyết tình trạng khan hiếm dữ liệu, nó đã được huấn luyện bằng một kho ngữ liệu tổng hợp mở rộng, đạt được hiệu quả tính toán thông qua việc tái sử dụng trọng số và cắt tỉa cấu trúc. Phương pháp cắt tỉa hiệu quả này đã tạo ra một mô hình 8B đạt hiệu suất tương đương với mô hình 100B. Sau khi huấn luyện, mô hình tiếp tục được cải thiện bằng cách sử dụng các quy trình tinh chỉnh học có giám sát (SFT) và tối ưu hóa sở thích trực tiếp (DPO), tận dụng dữ liệu hướng dẫn tiếng Nhật tổng hợp và các kỹ thuật hợp nhất mô hình. Suy luận được tối ưu hóa bằng vLLM và lượng tử hóa để giảm thiểu mất độ chính xác. Nó đạt được kết quả tiên tiến trên các chuẩn mực của Nhật Bản, vượt trội hơn các mô hình mở có quy mô tương tự về khả năng tuân theo hướng dẫn, khả năng ngôn ngữ lưu loát và kiến thức chuyên ngành tiếng Nhật.

Takeaways, Limitations

•

Takeaways:

◦

Chúng tôi đã cải thiện hiệu quả và hiệu suất của các mô hình ngôn ngữ quy mô lớn bằng kiến trúc lai dựa trên Samba và hỗ trợ ngữ cảnh mã thông báo 32K thông qua quá trình đào tạo trước liên tục.

◦

Bằng cách sử dụng dữ liệu tổng hợp và các kỹ thuật cắt tỉa hiệu quả, chúng tôi đã giảm trọng số của mô hình thành công bằng cách đạt được hiệu suất của mô hình 100B với mô hình 8B.

◦

Chúng tôi đã đạt được hiệu suất tiên tiến nhất trên các tiêu chuẩn của Nhật Bản bằng cách sử dụng các kỹ thuật sau đào tạo như SFT, DPO, dữ liệu tổng hợp và hợp nhất mô hình.

◦

Tối ưu hóa suy luận thông qua vLLM và lượng tử hóa cho phép suy luận hiệu quả mà không ảnh hưởng đến độ chính xác.

•

Limitations:

◦

Do phụ thuộc nhiều vào dữ liệu tổng hợp nên có khả năng hiệu suất sẽ giảm do sự khác biệt so với dữ liệu thực.

◦

Mặc dù kích thước mô hình đã được giảm bớt, nhưng nó vẫn có thể yêu cầu nguồn tài nguyên tính toán đáng kể.

◦

Bài báo này thiếu mô tả chi tiết về phương pháp tạo dữ liệu tổng hợp cụ thể hoặc cài đặt chi tiết của quy trình SFT và DPO.

◦

Chưa có sự xác nhận về khả năng áp dụng và hiệu suất khái quát hóa cho các ngôn ngữ khác.

Xem PDF

Made with Slashpage