Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

An ninh mạng hình thái thần kinh với học tập suốt đời bán giám sát

Một khuôn khổ toàn diện để định lượng sự không chắc chắn của các mô hình giám sát theo Voxel trong MRI IVIM

Chính quy hóa hành vi đối xứng thông qua mở rộng Taylor của tính đối xứng

Mở khóa tiềm năng của MLLM trong phân đoạn biểu thức tham chiếu thông qua bộ giải mã mặt nạ nhẹ

Tương tác giữa con người và AI lấy con người làm trung tâm (HC-HAII): Quan điểm AI lấy con người làm trung tâm

Thăm dò và tăng cường tính mạnh mẽ của bộ giải mã QEC dựa trên GNN với học tăng cường

LLM là những nhà lý luận đơn luồng: Giải mã cơ chế hoạt động của tư duy mềm

Thực hiện các quy luật mở rộng trong các hệ thống đề xuất: Mô hình chuyên gia nền tảng cho việc triển khai mô hình siêu quy mô

GrandJury: Giao thức đánh giá mô hình học máy cộng tác cho thang điểm chất lượng động

VeOmni: Mở rộng quy mô đào tạo mô hình phương thức bất kỳ với Zoo công thức phân tán tập trung vào mô hình

ByteGen: Mô hình tạo không cần tokenizer cho các sự kiện sổ lệnh trong không gian Byte

VLM4D: Hướng tới nhận thức không gian và thời gian trong các mô hình ngôn ngữ thị giác

CUPID: Đánh giá sự liên kết cá nhân hóa và theo ngữ cảnh của LLM từ các tương tác

RoboMemory: Một khuôn khổ tác nhân đa bộ nhớ lấy cảm hứng từ não bộ cho việc học tập suốt đời trong các hệ thống vật lý hiện thân

SpectrumWorld: Nền tảng trí tuệ nhân tạo cho quang phổ học

Căn chỉnh an toàn được cá nhân hóa cho các mô hình khuếch tán văn bản sang hình ảnh

Khám phá tính khả thi của các kỹ thuật học sâu để phân loại giới tính chính xác từ hình ảnh mắt

Hợp nhất Delta mô-đun với các ràng buộc trực giao: Một khuôn khổ có khả năng mở rộng cho việc kết hợp mô hình liên tục và có thể đảo ngược

Cơ chế chú ý hiệu quả cho các mô hình ngôn ngữ lớn: Một cuộc khảo sát

Nhìn trước khi kết hợp: Căn chỉnh đa phương thức theo hướng dẫn 2D để phát hiện 3D mạnh mẽ

Sự khuếch tán vượt trội hơn hồi quy tự động trong các cài đặt dữ liệu bị hạn chế

Đề Xuất đa mục tiêu xuyên miền tạo ra

Học những gì quan trọng: Lựa chọn nhiệm vụ xác suất thông qua thông tin tương hỗ để tinh chỉnh mô hình

$\Texttt{Droid}$: Bộ tài nguyên để phát hiện mã do AI tạo ra

Lớp logic Prompt Control Injection (LPCI): Một lớp lỗ hổng bảo mật mới trong các hệ thống Agentic

SPICE: Một quy trình dán nhãn SWE-Bench tự động để làm rõ vấn đề, phạm vi kiểm tra và ước tính nỗ lực

Tạo ra hợp đồng thông minh của tác nhân AI

Phân biệt dấu hiệu bằng cách sử dụng mô hình ngôn ngữ lớn

Mô hình ngôn ngữ thị giác có thể hiểu được hành động mô phỏng không?

Biến đổi mô hình phức tạp bằng học tăng cường với sự hướng dẫn không chắc chắn của con người

Mô hình học sâu không giám sát để lựa chọn trước lớp năng lượng nhanh chóng của kế hoạch điều trị cung cấp proton hiệu quả tối ưu hóa ung thư vòm họng

Kích hoạt Trợ lý AI Y tế trên Thiết bị thông qua Khả năng Thích ứng Độ nổi bật Dựa trên Đầu vào

MOGO: Bộ biến đổi nhân quả phân cấp lượng tử dư thừa để tạo chuyển động của con người 3D chất lượng cao và thời gian thực

Học cách chẩn đoán riêng tư: LLM do DP hỗ trợ để phân loại báo cáo X quang

CountingFruit: Đếm trái cây 3D theo hướng dẫn ngôn ngữ với phương pháp phân tích Gauss ngữ nghĩa

WeatherEdit: Chỉnh sửa thời tiết có thể kiểm soát bằng trường Gaussian 4D

Chẩn đoán và giảm thiểu nhiễu phương thức trong các mô hình ngôn ngữ lớn đa phương thức

Flex-Judge: Lý luận chỉ văn bản giải phóng các nhà đánh giá đa phương thức Zero-Shot

EarthSynth: Tạo ra dữ liệu quan sát Trái Đất hữu ích với các mô hình khuếch tán

RLSR: Học tăng cường từ phần thưởng bản thân

Các mô hình khuếch tán có thể trao đổi bí mật: Song song hóa DDPM thông qua tự động suy đoán

NoWag: Một khuôn khổ thống nhất để nén giữ nguyên hình dạng của các mô hình ngôn ngữ lớn

Khuyến nghị có thể giải thích được với phản hồi mô phỏng của con người

ĐảM bảo tính ổn định xác suất cho việc gán tính năng

JEPA4Rec: Học các biểu diễn ngôn ngữ hiệu quả cho khuyến nghị tuần tự thông qua kiến trúc dự đoán nhúng chung

ArXivBench: Khi nào bạn nên tránh sử dụng ChatGPT cho bài viết học thuật

Hướng tới các đại lý bán hàng đàm thoại được cá nhân hóa: Hồ sơ người dùng theo ngữ cảnh cho hành động chiến lược

Phương pháp học sâu để phát hiện sự cố mất kiểm soát nhiệt trong dây chuyền sản xuất pin

Vector Quantized-Elites: Tối ưu hóa chất lượng đa dạng không giám sát và không phụ thuộc vào vấn đề

Dự đoán tuổi thọ của đầu in công nghiệp bằng phân tích khả năng sống sót

R2Vul: Học cách suy luận về lỗ hổng phần mềm bằng phương pháp học tăng cường và chưng cất suy luận có cấu trúc

SciReplicate-Bench: Đánh giá chuẩn LLM trong việc tái tạo thuật toán dựa trên tác nhân từ các bài báo nghiên cứu

Bảo vệ quyền riêng tư của đám mây điểm 3D hiệu quả về mặt tính toán và dễ nhận dạng

Tác động của các lỗi viết câu hỏi đến độ khó và khả năng phân biệt trong Lý thuyết phản hồi câu hỏi

Dạy LLM cách học với sự tinh chỉnh theo ngữ cảnh

ĐáNh giá khả năng nhận thức an toàn trong các mô hình ngôn ngữ thị giác dành cho xe tự hành

Phương pháp chẩn đoán lỗi tăng cường GNN cho các cuộc tấn công mạng vật lý song song trong lưới điện

Ràng buộc về tính toàn vẹn ngữ nghĩa: Các rào cản khai báo cho hệ thống xử lý dữ liệu tăng cường AI

Text2VDM: Bản đồ dịch chuyển văn bản sang vectơ cho tác phẩm điêu khắc 3D mang tính biểu cảm và tương tác

RLTHF: Phản hồi của con người được nhắm mục tiêu để điều chỉnh LLM

Tạo nhạc nền video bằng cách kết hợp cảm xúc và ranh giới thời gian

MetaOcc: Sự kết hợp không gian-thời gian của radar và camera 4D toàn cảnh để dự đoán tình trạng chiếm đóng 3D với các chiến lược đào tạo kép

Có thể sử dụng các mô hình ngôn ngữ lớn nguồn mở để ghi chép về khối u ở Đức không? -- Đánh giá về ghi chú của bác sĩ tiết niệu

Nhiều tác nhân dựa trên mô hình ngôn ngữ lớn để trả lời câu hỏi trực quan dựa trên kiến thức

PromptDresser: Cải thiện chất lượng và khả năng kiểm soát của thử đồ ảo thông qua lời nhắc văn bản tạo ra và mặt nạ nhận biết lời nhắc

Gợi ý dựa trên cơ sở lý luận để trả lời câu hỏi trực quan dựa trên kiến thức

AnomalyControl: Học các đặc điểm ngữ nghĩa đa phương thức để tổng hợp dị thường có thể kiểm soát

GuARD: Phát hiện bất thường hiệu quả thông qua mô hình ngôn ngữ giàu văn bản và dựa trên đồ thị

TokenFlow: Công cụ phân tích hình ảnh thống nhất để hiểu và tạo đa phương thức

PL-DCP: Một khuôn khổ học tập theo cặp với các nguyên mẫu miền và lớp để nhận dạng cảm xúc EEG trong các điều kiện mục tiêu chưa biết

DisCoRD: Từ mã thông báo rời rạc đến chuyển động liên tục thông qua giải mã dòng chỉnh lưu

Từ Mã đến Tính chính xác: Hoàn thiện Giai đoạn Cuối cùng của Việc Tạo Mã bằng Gỡ lỗi Phân cấp

MedHalu: Ảo giác trong phản hồi các câu hỏi về chăm sóc sức khỏe bằng các mô hình ngôn ngữ lớn

Vấn đề huy chương: Điều tra các trường hợp trượt của LLM thông qua bảng xếp hạng Olympic

TẠO Bộ dữ liệu của bạn: Tạo Bộ dữ liệu tổng hợp theo nhiệm vụ cụ thể thông qua việc truy xuất và mở rộng ngữ liệu

StitchFusion: Kết hợp mọi phương thức trực quan để nâng cao khả năng phân đoạn ngữ nghĩa đa phương thức

SincVAE: Một phương pháp bán giám sát mới để cải thiện khả năng phát hiện dị thường trên dữ liệu EEG bằng SincNet và bộ mã hóa tự động biến thiên

CrisisSense-LLM: Mô hình ngôn ngữ lớn được điều chỉnh chính xác cho phân loại văn bản truyền thông xã hội đa nhãn trong tin học thảm họa

GTR: Cải thiện các mô hình tái tạo 3D lớn thông qua tinh chỉnh hình học và kết cấu

Hiểu các hành vi của mô hình ngôn ngữ lớn thông qua phân tích và tạo ra phản thực tế tương tác

Một tập dữ liệu MRI ung thư vòm họng nguyên phát với phân đoạn đa phương thức

Xác suất của LLM trò chuyện bị hiệu chỉnh sai nhưng vẫn dự đoán được tính chính xác trong phần Hỏi & Đáp trắc nghiệm

Học sâu đồ thị không giám sát tiết lộ hồ sơ rủi ro lũ lụt mới nổi của các khu vực đô thị

OmniPlay: So sánh các mô hình Omni-Modal về cách chơi trò chơi Omni-Modal

Nemori: Ký ức của tác nhân tự tổ chức lấy cảm hứng từ khoa học nhận thức

Polymath: Một tác nhân tự tối ưu hóa với quy trình làm việc phân cấp động

CAMA: Nâng cao lý luận toán học trong các mô hình ngôn ngữ lớn với kiến thức nhân quả

SE-Agent: Tối ưu hóa quỹ đạo tự tiến hóa trong suy luận đa bước với các tác nhân dựa trên LLM

Thoát khỏi tình trạng bế tắc: Tăng cường cam kết trong chương trình Thạc sĩ Luật (LLM)

NatureGAIA: Đẩy mạnh ranh giới của các tác nhân GUI với chuẩn mực đầy thách thức và bộ dữ liệu quỹ đạo chất lượng cao

DSBC: Nhiệm vụ Khoa học dữ liệu so sánh với kỹ thuật bối cảnh

Nhận diện cơn đau hiệu quả thông qua tín hiệu hô hấp: Đường ống hợp nhất đa cửa sổ của bộ chuyển đổi chú ý chéo đơn

Biểu đồ đa biểu diễn để nhận biết cơn đau: Tích hợp nhiều tín hiệu hoạt động điện da vào một hình ảnh duy nhất

SafeWork-R1: Sự phát triển đồng thời của An toàn và Trí tuệ theo Luật AI-45$^{\circ}$

Tối ưu hóa chính sách ngân sách phân cấp cho lý luận thích ứng

Biểu đồ R1: Giám sát và củng cố chuỗi suy nghĩ cho người lập biểu đồ nâng cao

Thiết lập các phương pháp hay nhất để xây dựng các tiêu chuẩn đại lý nghiêm ngặt

Lập kế hoạch LLM mở rộng: NL2FLOW để tạo ra bài toán tham số và đánh giá nghiêm ngặt

Tối ưu hóa chính sách bảo toàn phong cách cho tác nhân trò chơi

Căn chỉnh giá trị đa cấp trong hệ thống AI đại lý: Khảo sát và quan điểm

Từ Mã đến Tính chính xác: Hoàn thiện Giai đoạn Cuối cùng của Việc Tạo Mã bằng Gỡ lỗi Phân cấp

Created by

Haebom

Tác giả

Yuling Shi, Songsong Wang, Cheng Cheng Wan, Min Wang, Xiaodong Gu

Phác thảo

Bài báo này đề xuất một trình gỡ lỗi đa độ phân giải (MGDebugger) để khắc phục những hạn chế của việc tạo mã dựa trên các mô hình ngôn ngữ quy mô lớn (LLM). MGDebugger cô lập, xác định và giải quyết các lỗi trong mã được tạo ra ở nhiều mức độ chi tiết khác nhau, từ lỗi cú pháp cấp thấp đến lỗi thuật toán cấp cao. Nó phân tích mã có vấn đề thành một cây phân cấp các hàm con, mỗi cấp biểu thị một lỗi ở một mức độ chi tiết cụ thể. Sử dụng trình thực thi Python dựa trên LLM, nó theo dõi quá trình thực thi của các hàm con và giám sát trạng thái biến để xác định chính xác các lỗi. Độ chính xác và hiệu quả được cải thiện thông qua thử nghiệm cấp độ hàm con và giải quyết lỗi lặp lại từ dưới lên. Kết quả thử nghiệm sử dụng các tập dữ liệu HumanEval và HumanEvalFix chứng minh hiệu suất vượt trội của nó so với các hệ thống gỡ lỗi hiện có.

Takeaways, Limitations

•

Takeaways:

◦

Chúng tôi trình bày một phương pháp gỡ lỗi mới có thể góp phần cải thiện độ chính xác của quá trình tạo mã dựa trên LLM.

◦

Đã đượC chứng minh là có hiệu quả trong việc giải quyết các vấn đề phức tạp bằng cách giải quyết các lỗi ở nhiều cấp độ chi tiết khác nhau.

◦

Có thể xác định và sửa lỗi chính xác thông qua trình mô phỏng dựa trên LLM.

◦

Hiệu suất được cải thiện đã được xác minh bằng thực nghiệm trên các hệ thống hiện có trên các tập dữ liệu HumanEval và HumanEvalFix.

•

_____T21557____-:

◦

Hiện tại, hệ thống này chuyên dành cho Python và khả năng áp dụng cho các ngôn ngữ lập trình khác cần được nghiên cứu thêm.

◦

Cần phải xác nhận thêm về hiệu suất và độ tin cậy của trình mô phỏng dựa trên LLM.

◦

Hiệu suất xử lý các loại lỗi rất phức tạp hoặc đặc biệt cần phải được thử nghiệm thêm.

◦

Do những hạn chế của LLM, có thể một số loại lỗi nhất định sẽ không được phát hiện.

Xem PDF

Made with Slashpage