每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成，并以非盈利为基础运营。
论文版权归作者及相关机构所有，分享时请注明出处。

NExT-OMNI：面向具有离散流匹配的任意全模态基础模型

OpenDerisk：AI 驱动的 SRE 工业框架，包含设计、实施和案例研究

通过 LLM 微调进行汤普森采样

A$^2$FM：用于工具感知混合推理的自适应代理基础模型

超越视觉：评估多模态法学硕士在工具支持的图像感知、转换和推理方面的应用

HALF：与部署保持一致的危害意识法学硕士公平性评估

ENIGMA：大型语言模型中的推理和对齐几何

重新发现熵正则化：自适应系数释放其在法学硕士强化学习中的潜力

潜在检索增强跨域蛋白质结合剂的生成

全是代码，没有思想：当前的语言模型难以推理密码语言

梯度符号掩蔽用于跨预训练模型的任务向量传输

多层瞬时高阶相互作用

隐藏的偏见：大型语言模型中的显性和隐性政治刻板印象研究

适度思考：序列级熵作为法学硕士推理的置信度信号

Ctrl-VI：通过变分推理实现可控视频合成

基于图像净化策略的真实世界超低剂量肺 CT 图像去噪框架

比较人类和语言模型在复杂结构上的句子处理难度

量化基于概念的侧信道模型中的准确度-可解释性权衡

代理错位：法学硕士如何成为内部威胁

接种提示：在训练期间从 LLM 中引出特征可以在测试时抑制它们

PHORECAST：让人工智能理解跨人群的公共卫生推广

通过人类干预进行预测偏好学习

不同数据损坏下离线到在线强化学习的稳健策略扩展

PerfBench：代理可以解决现实世界的性能错误吗？

PATCH：可学习的 LLM 的 Tile 级混合稀疏性

FLUX 是否已经知道如何执行物理上合理的图像合成？

基于概念的情境学习的理论解读

基于 Chiplet 的 RISC-V SoC，具有模块化 AI 加速功能

从易到难：渐进式交错多图像推理的 MIR 基准

苏格拉底式思维：新型 GenAI 驱动评估工具对学生学习和高阶思维的影响

EdiVal-Agent：一个以对象为中心的框架，用于自动、细粒度地评估多轮编辑

语音感知大型语言模型中语言理解能力的保留

MarkDiffusion：用于潜在扩散模型生成水印的开源工具包

思想融合提炼

ECG-Soup：利用多层协同作用构建 ECG 基础模型

从频率视角重新思考多行为序列推荐中的纯度与多样性

大型语言模型支持跨文化个性化推荐的设计

PETLP：人工智能研究中社交媒体数据的隐私设计管道

法学硕士是单线程推理者：揭开软思维工作机制的神秘面纱

超参数优化对实时图像分类轻量级深度模型的影响分析

创新者：通过细粒度的 MoE 升级进行科学的持续预训练

通过稀疏特征控制实现多语言 Transformer 中的因果语言控制

HANS-Net：双曲卷积和自适应时间注意力，用于 CT 成像中准确且可推广的肝脏和肿瘤分割

为什么你的语言模型是一个糟糕的隐性奖励模型？

即时扰动揭示大型语言模型调查响应中类似人类的偏见

Gemini 2.5：通过高级推理、多模态、长上下文和下一代代理功能突破前沿

TopoStreamer：自动驾驶中的时间车道段拓扑推理

基于临床的肾脏 CT 报告生成两阶段框架

VALID-Mol：经验证的法学硕士辅助分子设计的系统框架

R1-Ranker：教 LLM 排名者推理

法学硕士指导的多智能体方法化学过程优化

子空间增强模型合并

SoK：评估大型语言模型的越狱护栏

TAI3：测试代理在解释用户意图时的完整性

KScope：表征语言模型知识状态的框架

当风格打破安全：保护法学硕士免受肤浅风格一致性的侵害

IQUEST：知识库问答的迭代问题引导框架

用于 OFDM 信道估计的注意力辅助 MMSE：通过注意力学习线性滤波器

LLM 持续学习中正交子空间适配器调整的自适应预算分配

思考者：学习快速思考和缓慢思考

KL 正则化本身在 Bandits 和 RLHF 游戏中具有差分隐私性

InfoDet：信息图元素检测数据集

综合历史：评估扩散模型中过去的视觉表征

Checkpoint-GCG：审计和攻击基于微调的即时注入防御

APEX：通过基于物理的任务规划赋能法学硕士，实现实时洞察

ConDiSim：基于模拟推理的条件扩散模型

代理互联网：基础、应用和挑战

ML.ENERGY 基准：迈向自动推理能量测量与优化

法学硕士 (LLM) 对网络安全的适用性：STRIDE 威胁建模案例研究

绝对零度：零数据强化自我推理

恢复对齐大型语言模型的校准：一种校准感知的微调方法

关于用扭曲噪声训练的视频扩散模型中的等方差和快速采样

大型语言模型中对抗性鲁棒性与偏见引发的基准测试：使用 LLM-as-a-Judge 进行可扩展的自动评估

编辑：通过编码器-解码器架构减轻注意力损失，增强视觉变换器

克服跨编码器中的稀疏性伪影来解释聊天调整

利用 LLM、IDE 和语义嵌入实现自动移动方法重构

空间物理学的神经符号模型

永不放弃：极端海况下用于 AUV 的 LLM 增强型基于 RL 的自适应 S 表面控制器

利用时频主题学习对单通道脑电图进行标记

评估 Sakana 的人工智能科学家：大胆的声明、混合的结果和光明的未来？

法学硕士中的判断模拟

FedRTS：通过组合汤普森采样进行联邦稳健剪枝

最后的依赖项征程：使用 LLM 解决 Python 依赖项冲突

公平定位杂务的多项式时间算法

VERITAS：验证基站中 AI 原生收发器操作的性能

Moto：潜在运动标记作为从视频学习机器人操作的桥接语言

人工智能驱动的多模式智能家居平台，用于持续监测和协助中风后运动障碍

解开并可自我解释的节点表示学习

人工智能生成的论文：特征及其对自动评分和学术诚信的影响

CoreGuard：保护 LLM 的基础功能，防止边缘部署中的模型被窃取

VoxelPrompt：用于端到端医学图像分析的视觉代理

大型多模态模型中无需基础监督的紧急视觉基础

SFTMix：使用 Mixup Recipe 提升语言模型指令调整

MIO：多模态代币的基础模型

GraphLand：评估不同工业数据上的图形机器学习模型

荧光面纱：一种针对交通标志识别的隐秘而有效的物理对抗补丁

说出我的名字：模型的偏见发现框架

Janus-Pro-7B、DALL-E、Stable Diffusion、SDXL、FLUX 和 Midjourney 中的自闭症谱系视觉刻板印象

推荐系统全面回顾：从理论到实践

Ada-KV：通过自适应预算分配优化 KV 缓存驱逐，实现高效的 LLM 推理

TAI3：测试代理在解释用户意图时的完整性

Created by

Haebom

作者

冯世伟、徐翔哲、陈轩、张开元、Syed Yusuf Ahmed、苏子安、郑明伟、张翔宇

大纲

虽然LLM代理越来越多地用于通过使用自然语言指令调用API来自动化实际任务，但它们经常会误解用户意图并执行与预期不同的操作。外部工具包的进步加剧了这个问题。传统的软件测试假设结构化输入，在处理自然语言歧义方面存在局限性。TAI3是一个以API为中心的压力测试框架，它系统地揭示了LLM代理中的意图完整性违规问题。它根据工具包文档生成真实的任务，并应用有针对性的突变来揭示代理错误，同时保留用户意图。为了指导测试，它提出了一种基于工具包API参数和等价类的自然语言任务语义划分方法，将其划分为有意义的类别。在每个分区中，使用一个轻量级预测器对种子任务进行转换和排序，该预测器可以估计导致代理错误的可能性。为了提高效率，TAI3维护了一个数据类型感知策略的内存，这些策略可以从过去的示例中发现并应用有效的突变模式。在 80 个工具包 API 的实验中，TAI3 在错误暴露率和查询效率方面均显著优于基线，有效发现了意图完整性违规。此外，TAI3 通过使用更小的 LLM 进行测试生成，可以泛化到更强大的目标模型，并能够适应跨领域不断发展的 API。

Takeaways, Limitations

•

Takeaways：

◦

提出了一种用于解决 LLM 代理意图完整性问题的新型测试框架（TAI3）。

◦

通过基于 API 的测试有效地发现真正的错误。

◦

利用语义分割和数据类型感知策略记忆来提高测试效率。

◦

适用于各种领域和模型，适应API的演进。

•

Limitations：

◦

实验中使用的工具包 API 数量可能有限。

◦

语义分割和轻量级预测器的性能限制。

◦

数据类型识别策略记忆的学习和应用还有待进一步分析。

◦

由于自然语言理解能力的局限性，可能会出现错误。

Made with Slashpage