每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成，并以非盈利为基础运营。
论文版权归作者及相关机构所有，分享时请注明出处。

MOIS-SAM2：基于样本的“任何分割模型 2”，用于全身 MRI 中神经纤维瘤的多病变交互式分割

软指标，硬事实

Citrus-V：基于统一医学图像基础的先进医学基础模型，助力临床推理

长助短：监督微调中的上下文长度如何影响大型语言模型的行为

COLT：通过持续使用工具增强视频大型语言模型

视觉运动政策中需要本体感受状态吗？

CPCLDETECTOR：用于检测中文居高临下语言的知识增强和对齐选择

通过持续指令调整实现自我进化的法学硕士

Safe-SAIL：通过稀疏自动编码器解释框架实现大型语言模型的细粒度安全格局

法学硕士能否以无需训练的方式推理非文本模态？基于上下文表征学习的案例研究

通过残差量化为预排序赋予目标注意力

语音法学硕士 (LLM) 中的语境推理和副语言推理基准测试：基于自然数据的案例研究

开源从创始人领导到社区治理的转变模式

合成引导预训练

PromptSculptor：基于多代理的文本到图像提示优化

代码语义有用吗？基于执行轨迹的代码大型语言模型信息综合研究

UI-S1：通过半在线强化学习推进 GUI 自动化

结构很重要：通过可学习的边缘掩蔽增强脑图，实现数据高效的精神病诊断

超越服务前视野：融入服务中行为以改善财务风险预测

HumAine-Chatbot：通过强化学习实现实时个性化对话式人工智能

EAI-Avatar：情绪感知交互式说话头像生成

SciRerankBench：面向科学检索的基准重排序器——增强生成的 LLM

人工智能公司是否兑现了对白宫的自愿承诺？

在音频代码生成中嵌入对齐

Kron-LoRA：用于可扩展、可持续微调的混合 Kronecker-LoRA 适配器

从查询到逻辑：法学硕士 (LLM) 中的本体驱动多跳推理

测量计算机使用代理的危害性

利用自适应上下文压缩提高 RAG 效率

CANDLE：用于可解释的肌肉减少症诊断的跨模态代理知识提炼框架

Assay2Mol：基于大型语言模型、使用 BioAssay 上下文的药物设计

动态参数记忆：用于对话中长序列情绪识别的临时 LoRA 增强型 LLM

White-Basilisk：一种用于代码漏洞检测的混合模型

可再生能源共置人工智能数据中心的能源管理

VisualTrap：通过操纵视觉接地对 GUI 代理进行隐秘后门攻击

LoSiA：通过子网定位和优化实现高效的高秩微调

结构搜索：组合优化的无监督置换学习

HAZEMATCHING：利用引导条件流匹配对光学显微镜图像进行去雾

超越简单图：多重图上的神经多目标路由

面向实际应用的工程 RAG 系统：设计、开发和评估

CUPID：利用影响力函数整理机器人喜爱的数据

量子-经典混合量化神经网络

SurgVidLM：利用大型语言模型实现多粒度手术视频理解

为什么某些输入会破坏低位 LLM 量化？

用于皮肤癌分类的不确定性感知深度学习四步法

CellCLIP——通过文本引导的对比学习来学习细胞绘画中的扰动效应

Urania：对人工智能使用的差异化隐私洞察

RadialRouter：高效、稳健的大型语言模型路由的结构化表示

OmniSpatial：面向视觉语言模型的综合空间推理基准

局部化 LoRA：用于高效微调的结构化低秩近似

PathGene：使用多中心肺癌组织病理学图像数据集对驱动基因突变和外显子预测进行基准测试

信任还是不信任你的视觉语言模型的预测

SEM：增强空间理解，实现稳健的机器人操作

日期碎片：时间推理标记化的隐藏瓶颈

DISCO 平衡尺度：针对不平衡数据的自适应领域和难度感知强化学习

从不一致到一致：利用多路并行语料库扩展多语言法学硕士

重新审视残差连接：稳定高效的深度网络的正交更新

逐步引导策略优化：在 GRPO 中为错误推理着色

GSPRec：用于推荐的时间感知图谱过滤

EDBench：用于分子建模的大规模电子密度数据

小型还是大型？零样本还是微调？医疗保健专业应用的指导语言模型选择

LEMUR 神经网络数据集：迈向无缝 AutoML

面向多模态大型语言模型的视觉文本基础

非线性音频效应的无监督估计：基于扩散的方法和对抗方法的比较

DP-LET：一种高效的时空网络流量预测框架

具有动态奖励缩放的逆向强化学习，用于 LLM 对齐

自我中心愿景的挑战与趋势：一项调查

使用大型语言模型统一时间文本属性图的文本语义和图形结构

语言模型无法反思其语言知识

通过模仿周围车辆学习驾驶

基于通用 SMARTS 模板和数据增强的 Transformer 模型预测化学产品

复杂动力系统中的异常检测：使用嵌入理论和物理启发一致性的系统框架

通过全面的答案弥合信息差距：提高后续问题的多样性和信息量

HawkBench：研究 RAG 方法在分层信息搜索任务中的弹性

SoFar：基于语言的方向连接空间推理和对象操作

通过梯度下降进行紧凑的基于规则的分类器学习

BAP v2：Minecraft 对话中指令遵循的增强任务框架

表征收敛：相互提炼其实是一种正则化形式

盲人摸象：基准数据集中性别刻板印象的不同视角

Stylus：重新利用稳定扩散实现梅尔谱图上的无训练音乐风格迁移

扩散课程：通过图像引导扩散实现从合成到真实的生成课程学习

VLM 看，机器人做：通过视觉语言模型将人类演示视频转化为机器人行动计划

用于生成医疗记录的 GEN AI 框架

使用 ASCII 艺术逃避毒性检测：对审核系统进行空间攻击的基准

用于自动化医疗文档的大型语言模型的有效微调

任意精度和稀疏度的神经网络稳健训练

时空知识整合：大气时间序列预报的轻量级方法

DeNOTS：时间序列的稳定深度神经微分方程

TALEC：通过标准划分和零样本加少量样本，教授你的法学硕士在特定领域使用内部标准进行评估

RealitySummary：使用大型语言模型探索按需混合现实文本摘要和问答

CLIP 可以理解深度

CueGCL：面向无监督图对比学习的集群感知个性化自训练

在标签稀缺的情况下，预训练深度模型在学习排序方面的表现优于 GBDT

外部时间过程下的马尔可夫决策过程

MAPO：混合优势策略优化

相似场论：智能的通用数学框架

CogAtom：从认知原子到大型语言模型中的奥林匹克级数学推理

基于 LLM 的具身任务完成代理的计划验证

GRAFT：文本对齐的图形和表格推理——结构化教学跟踪和视觉推理的基准

医学环境下高效多模态法学硕士 (LLM) 的压缩策略

资源约束下理性主体的突发风险意识

VisualTrap：通过操纵视觉接地对 GUI 代理进行隐秘后门攻击

Created by

Haebom

作者

叶子昂、张阳、施文涛、尤晓宇、冯富丽、蔡达成

大纲

基于大规模视觉语言模型 (LVLM) 的图形用户界面 (GUI) 代理已成为一种创新方法，可用于自主操作个人设备或应用程序执行复杂的实际任务。然而，它们与个人设备的紧密集成带来了诸多威胁，包括后门攻击，而这些威胁在很大程度上仍未被探索。本研究表明，GUI 代理中将文本计划映射到 GUI 元素的视觉基础存在漏洞，从而引发了一种新型的后门攻击。即使给定了精确的任务解决计划，针对视觉基础的后门攻击也可能破坏代理的行为。为了验证此漏洞，本研究提出了一种名为 VisualTrap 的方法，该方法通过诱骗代理在预期目标以外的触发位置查找文本计划来利用视觉基础。VisualTrap 使用一种常见的方法，即在攻击中注入毒数据，并通过在基于视觉的预训练期间执行此任务来确保攻击的可行性。实验结果表明，VisualTrap 仅需 5% 的中毒数据和高度隐蔽的视觉触发器（人眼不可见）即可有效利用基于视觉的攻击。即使经过仔细的微调，该攻击也可以推广到下游任务。此外，注入的触发器在各种 GUI 环境中均有效，包括在移动/Web 上进行训练并推广到桌面环境。这些结果凸显了进一步研究 GUI 代理后门攻击风险的必要性。

Takeaways，Limitations

•

Takeaways：通过揭示针对 GUI 代理可视化基础的后门攻击的可能性，并提出一种实用的攻击方法 VisualTrap，我们提高了人们对 GUI 代理安全及其漏洞重要性的认识。通过证明仅需 5% 的中毒数据和隐形触发器就可能引发攻击，我们强调了实际威胁的严重性。此外，我们还证明了该攻击的普遍性，表明其在各种环境中都有可能被利用。

•

Limitations： VisualTrap 目前仅关注视觉攻击，并未考虑其他攻击向量（例如语言模型本身的漏洞）。将测试结果推广到特定 GUI 环境的能力可能有限。未来需要对更广泛的 GUI 代理和环境进行进一步研究。此外，针对 VisualTrap 的防御机制开发研究仍然不足。

Made with Slashpage