每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成，并以非盈利为基础运营。
论文版权归作者及相关机构所有，分享时请注明出处。

QLLM：在多智能体强化学习中，我们真的需要一个混合网络来进行信用分配吗？

通过 RST 增强图融合和可解释性预测实现跨文档跨语言 NLI

性能提升的幻象：对比解码为何无法减轻 MLLM 中的物体幻觉？

MigGPT：利用大型语言模型实现跨版本的 Linux 内核补丁自动迁移

MedHal：医学幻觉检测评估数据集

AutoPDL：LLM 代理的自动提示优化

用于紧急沟通和协调的去中心化集体世界模型

模型上下文协议（MCP）：现状、安全威胁和未来研究方向

用于高效测试时间推理的熵门控分支

构建资源受限的语言代理：韩国化学毒性信息案例研究

贝叶斯教学使大型语言模型中的概率推理成为可能

基于图形的可解释全幻灯片图像分析框架

脑图像对齐的最佳传输：揭示神经信息处理中的冗余和协同作用

IMPACT：通过视觉语言模型实现可接受接触轨迹的智能运动规划

WildIFEval：野外指令跟踪

通过曲率和局部本征维度进行几何引导的对抗性提示检测

标记代码而不破坏代码：用于检测 LLM 生成代码的代码水印

使用红旗代币的 LLM 危害缓解生成方法

PartSDF：基于部件的隐式神经表征，用于复合 3D 形状参数化和优化

宝石：多面缩放定律的模型套件

HOG-Diff：用于图生成的高阶引导扩散

QAPyramid：文本摘要内容选择的细粒度评估

BenchAgents：用于结构化基准创建的多智能体系统

PACER：基于物理信息和不确定性感知的气候模拟器

BanglaLlama：孟加拉语的 LLaMA

本地 LLM 部署的中间路径：在不牺牲模型机密性的前提下保护隐私

医学图像分析中 Mamba 架构的全面概述：分类、分割、恢复及其他

结合亲和力预测：从传统方法到基于机器学习的方法

可解释聚类：一项调查

因果探究干预措施的可靠性如何？

SKADA-Bench：对无监督领域自适应方法进行基准测试，并在多种模式下进行实际验证

大型语言模型对文本扰动的鲁棒性

探索对话式人工智能对基于代理的社会模拟模型设计的潜力

结合 Mamba 进行语音增强的调查

用于软件测试自动化中上下文感知视觉变化检测的人工智能

一种用于多尺度时间表征学习的可学习提示的信用预测生成方法

LLM 原生方法中用于软件验证和证伪的生成转换和模式

从画笔到像素：人工智能生成艺术中的深度神经网络综述

通过约束强化学习和零知识审计实现安全合规的跨市场交易执行

开放代理规范（Agent Spec）技术报告

利用法学硕士 (LLM) 进行基于网络的智能教育系统中的抗噪认知诊断

BrowserArena：评估 LLM 代理在现实世界 Web 导航任务中的表现

人工智能模型是否能够跨模态执行类似人类的抽象推理？

思考还是作弊？通过测量推理努力来检测隐性奖励黑客行为

分层推理模型：观点与误解

训练视觉语言过程奖励模型用于多模态推理中的测试时间缩放：关键见解和经验教训

法学硕士的风险分析与调节

结构化稀疏转移矩阵实现状态空间模型中的状态跟踪

RepIt：表示孤立目标来引导语言模型

人类+人工智能加速广告本地化评估

MAPGD：用于协作提示优化的多智能体提示梯度下降

ForTIFAI：避免递归训练导致的 AI 模型故障

GRAFT：文本对齐的图形和表格推理——结构化教学跟踪和视觉推理的基准

基于 MIP 构造和多邻域局部搜索的触发弧 TSP 快速 GRASP 元启发式算法

辨别重要之事：法学硕士道德能力的多维度评估

VisioMath：LMM 中基于图形的数学推理基准测试

FLEx：通过专家嫁接实现混合专家法学硕士的个性化联邦学习

SciSciGPT：推进科学领域的人机协作

学习暴露映射函数以推断异质同伴效应

大型模型在医学中的应用

从黑盒二元分类器中提取 PAC 决策树：基于 BERT 的语言模型的性别偏见案例研究

幻觉排毒：用于大型语言模型训练的灵敏度下降（SenD）

社会推理游戏中法学硕士的细粒度和主题评估

EgoNight：以具有挑战性的基准实现夜间自我中心视觉理解

分层 GRPO：处理 LLM 搜索代理强化学习中的结构异质性

参考基础技能发现

TokenChain：通过语义令牌建模的离散语音链

StarEmbed：基于变星天文观测的时间序列基础模型基准测试

潜在语音文本转换器

BanglaTalk：面向孟加拉方言的实时语音辅助

不可编译学生代码的自动程序修复

RECODE-H：具有交互式人工反馈的研究代码开发基准

通过高质量可见光谱虹膜图像捕捉实现基于智能手机的虹膜识别。V2

法学硕士作为政策无关的队友：异构代理团队的人类代理设计案例研究

日常图像中的双手 3D 手部运动和关节预测

基于语言编码门控策略网络的多任务强化学习

CreditDecoding：利用跟踪积分加速扩散大型语言模型中的并行解码

用于统一医学多模态生成的具有 MLLM 的离散扩散模型

分布语义追踪：解释大型语言模型中的幻觉的框架

以左心耳为特征的公共心脏 CT 数据集

频谱调整：分布式覆盖和上下文可控性的后训练

当思维漂移时：稳健视频推理的证据基础

自行进行基准测试 (BIY)：准备数据集并对散点图相关任务的 AI 模型进行基准测试

通过形态感知学习实现跨具体化灵巧手关节生成

视觉推理：理解 CAPTCHA 视觉语言模型中的视觉空间认知

从 360° 空间信息生成可控的视听视点

GLVD：引导学习顶点下降

VideoMiner：通过基于树的组相对策略优化迭代地确定一小时视频的关键帧

CDTP：用于中文法学硕士综合评估的大规模中文数据-文本对数据集

从学习到精通：通过人机协同强化学习实现安全高效的现实世界自动驾驶

片段目标流行向量（MolFTP）的快速留一近似：从虚拟掩蔽到 Key-LOO，实现无泄漏特征构建

新兴人工智能监控：执法环境下的过度学习人员重新识别及其缓解措施

混合量子-经典策略梯度用于信息物理系统自适应控制：VQC 与 MLP 的比较研究

使用多模态大型语言模型检测和测量冰雹

ECTSpeech：通过轻松的一致性调整来增强高效的语音合成

低光图像增强的扩散模型：多视角分类和性能分析

LexiCon：自然语言时间约束下的规划基准

大型语言模型的难度感知机制探究

高斯嵌入：JEPA 如何秘密学习数据密度

EvalMORAAL：可解释的思路链和 LLM-as-Judge 评估，用于大型语言模型中的道德一致性

HFuzzer：通过基于短语的模糊测试来测试大型语言模型中的幻觉包

Created by

Haebom

作者

赵宇凯、吴梦涵、胡星、夏欣

大纲

大规模语言模型 (LLM) 被广泛用于代码生成，但在生产环境中应用时，由于存在“包幻觉”（推荐不存在的包）的问题，会带来严重的安全风险。恶意攻击者可以利用这些“包幻觉”来注册恶意包，从而可能导致软件供应链攻击。本研究强调了测试 LLM 是否存在“包幻觉”问题的重要性，以减轻“包幻觉”问题并防御潜在的攻击。为此，我们提出了一个基于语法的模糊测试框架 HFUZZER。HFUZZER 采用模糊测试技术，通过诱导模型基于语法推断更广泛的合理信息来生成充足且多样化的编码任务。此外，它从包信息或编码任务中提取语法，以确保语法与代码的相关性，从而增强生成的任务与代码的相关性。HFUZZER 在多个 LLM 上的评估结果表明，所有选定的模型都存在“包幻觉”问题。与变异模糊测试框架相比，HFUZZER 识别出的独特幻觉程序包数量增加了 2.60 倍，生成的任务种类也更加丰富。此外，在测试 GPT-4o 时，HFUZZER 发现了 46 个独特的幻觉程序包。进一步分析表明，对于 GPT-4o，LLM 不仅在生成代码时表现出幻觉程序包，在协助环境配置时也表现出幻觉程序包。

Takeaways, Limitations

•

Takeaways：

◦

提出了一种新的框架HFUZZER来解决包裹幻觉问题。

◦

事实证明，HFUZZER 能够有效诱发各种 LLM 中的组合幻觉。

◦

甚至像 GPT-4o 这样的现代模型也证实了包裹幻觉现象。

◦

不仅在生成代码时检查可能的包幻觉，而且在支持环境配置时也检查可能的包幻觉。

•

Limitations：

◦

论文中未指定有关具体 Limitations 的信息（基于摘要）

Made with Slashpage