每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成，并以非盈利为基础运营。
论文版权归作者及相关机构所有，分享时请注明出处。

MOIS-SAM2：基于样本的“任何分割模型 2”，用于全身 MRI 中神经纤维瘤的多病变交互式分割

软指标，硬事实

Citrus-V：基于统一医学图像基础的先进医学基础模型，助力临床推理

长助短：监督微调中的上下文长度如何影响大型语言模型的行为

COLT：通过持续使用工具增强视频大型语言模型

视觉运动政策中需要本体感受状态吗？

CPCLDETECTOR：用于检测中文居高临下语言的知识增强和对齐选择

通过持续指令调整实现自我进化的法学硕士

Safe-SAIL：通过稀疏自动编码器解释框架实现大型语言模型的细粒度安全格局

法学硕士能否以无需训练的方式推理非文本模态？基于上下文表征学习的案例研究

通过残差量化为预排序赋予目标注意力

语音法学硕士 (LLM) 中的语境推理和副语言推理基准测试：基于自然数据的案例研究

开源从创始人领导到社区治理的转变模式

合成引导预训练

PromptSculptor：基于多代理的文本到图像提示优化

代码语义有用吗？基于执行轨迹的代码大型语言模型信息综合研究

UI-S1：通过半在线强化学习推进 GUI 自动化

结构很重要：通过可学习的边缘掩蔽增强脑图，实现数据高效的精神病诊断

超越服务前视野：融入服务中行为以改善财务风险预测

HumAine-Chatbot：通过强化学习实现实时个性化对话式人工智能

EAI-Avatar：情绪感知交互式说话头像生成

SciRerankBench：面向科学检索的基准重排序器——增强生成的 LLM

人工智能公司是否兑现了对白宫的自愿承诺？

在音频代码生成中嵌入对齐

Kron-LoRA：用于可扩展、可持续微调的混合 Kronecker-LoRA 适配器

从查询到逻辑：法学硕士 (LLM) 中的本体驱动多跳推理

测量计算机使用代理的危害性

利用自适应上下文压缩提高 RAG 效率

CANDLE：用于可解释的肌肉减少症诊断的跨模态代理知识提炼框架

Assay2Mol：基于大型语言模型、使用 BioAssay 上下文的药物设计

动态参数记忆：用于对话中长序列情绪识别的临时 LoRA 增强型 LLM

White-Basilisk：一种用于代码漏洞检测的混合模型

可再生能源共置人工智能数据中心的能源管理

VisualTrap：通过操纵视觉接地对 GUI 代理进行隐秘后门攻击

LoSiA：通过子网定位和优化实现高效的高秩微调

结构搜索：组合优化的无监督置换学习

HAZEMATCHING：利用引导条件流匹配对光学显微镜图像进行去雾

超越简单图：多重图上的神经多目标路由

面向实际应用的工程 RAG 系统：设计、开发和评估

CUPID：利用影响力函数整理机器人喜爱的数据

量子-经典混合量化神经网络

SurgVidLM：利用大型语言模型实现多粒度手术视频理解

为什么某些输入会破坏低位 LLM 量化？

用于皮肤癌分类的不确定性感知深度学习四步法

CellCLIP——通过文本引导的对比学习来学习细胞绘画中的扰动效应

Urania：对人工智能使用的差异化隐私洞察

RadialRouter：高效、稳健的大型语言模型路由的结构化表示

OmniSpatial：面向视觉语言模型的综合空间推理基准

局部化 LoRA：用于高效微调的结构化低秩近似

PathGene：使用多中心肺癌组织病理学图像数据集对驱动基因突变和外显子预测进行基准测试

信任还是不信任你的视觉语言模型的预测

SEM：增强空间理解，实现稳健的机器人操作

日期碎片：时间推理标记化的隐藏瓶颈

DISCO 平衡尺度：针对不平衡数据的自适应领域和难度感知强化学习

从不一致到一致：利用多路并行语料库扩展多语言法学硕士

重新审视残差连接：稳定高效的深度网络的正交更新

逐步引导策略优化：在 GRPO 中为错误推理着色

GSPRec：用于推荐的时间感知图谱过滤

EDBench：用于分子建模的大规模电子密度数据

小型还是大型？零样本还是微调？医疗保健专业应用的指导语言模型选择

LEMUR 神经网络数据集：迈向无缝 AutoML

面向多模态大型语言模型的视觉文本基础

非线性音频效应的无监督估计：基于扩散的方法和对抗方法的比较

DP-LET：一种高效的时空网络流量预测框架

具有动态奖励缩放的逆向强化学习，用于 LLM 对齐

自我中心愿景的挑战与趋势：一项调查

使用大型语言模型统一时间文本属性图的文本语义和图形结构

语言模型无法反思其语言知识

通过模仿周围车辆学习驾驶

基于通用 SMARTS 模板和数据增强的 Transformer 模型预测化学产品

复杂动力系统中的异常检测：使用嵌入理论和物理启发一致性的系统框架

通过全面的答案弥合信息差距：提高后续问题的多样性和信息量

HawkBench：研究 RAG 方法在分层信息搜索任务中的弹性

SoFar：基于语言的方向连接空间推理和对象操作

通过梯度下降进行紧凑的基于规则的分类器学习

BAP v2：Minecraft 对话中指令遵循的增强任务框架

表征收敛：相互提炼其实是一种正则化形式

盲人摸象：基准数据集中性别刻板印象的不同视角

Stylus：重新利用稳定扩散实现梅尔谱图上的无训练音乐风格迁移

扩散课程：通过图像引导扩散实现从合成到真实的生成课程学习

VLM 看，机器人做：通过视觉语言模型将人类演示视频转化为机器人行动计划

用于生成医疗记录的 GEN AI 框架

使用 ASCII 艺术逃避毒性检测：对审核系统进行空间攻击的基准

用于自动化医疗文档的大型语言模型的有效微调

任意精度和稀疏度的神经网络稳健训练

时空知识整合：大气时间序列预报的轻量级方法

DeNOTS：时间序列的稳定深度神经微分方程

TALEC：通过标准划分和零样本加少量样本，教授你的法学硕士在特定领域使用内部标准进行评估

RealitySummary：使用大型语言模型探索按需混合现实文本摘要和问答

CLIP 可以理解深度

CueGCL：面向无监督图对比学习的集群感知个性化自训练

在标签稀缺的情况下，预训练深度模型在学习排序方面的表现优于 GBDT

外部时间过程下的马尔可夫决策过程

MAPO：混合优势策略优化

相似场论：智能的通用数学框架

CogAtom：从认知原子到大型语言模型中的奥林匹克级数学推理

基于 LLM 的具身任务完成代理的计划验证

GRAFT：文本对齐的图形和表格推理——结构化教学跟踪和视觉推理的基准

医学环境下高效多模态法学硕士 (LLM) 的压缩策略

资源约束下理性主体的突发风险意识

UI-S1：通过半在线强化学习推进 GUI 自动化

Created by

Haebom

作者

路正熙、叶家博、唐飞、沉永亮、徐海洋、郑子伟、路伟明、严明、黄飞、肖军、庄月婷

大纲

本文研究了一种通过强化学习自动执行复杂用户界面交互的图形用户界面 (GUI) 代理。传统的离线强化学习虽然能够实现稳定的训练，但缺乏执行多步骤任务所需的奖励信号。在线强化学习可以捕捉这些信号，但存在奖励稀疏和部署成本高的问题。为了解决这个问题，本文提出了一种新的范式——半在线强化学习，它能够在离线路径上模拟在线强化学习。在每次部署过程中，多轮对话中的原始模型输出会被保留，并使用一个补丁模块自适应地恢复部署路径和专家路径之间的差异。为了捕捉长期训练信号，我们将未来收益折现引入奖励计算，并利用加权步骤级和事件级优势实现策略优化。此外，本文还引入了半在线性能 (SOP)，这是一种更符合实际在线性能的指标，可以作为评估真实环境的实用且有效的替代指标。实验结果表明，所提出的半在线强化学习在四个动态基准测试中取得了 7B 模型中的最佳性能，相比基线模型实现了显著的性能提升（例如，在 AndroidWorld 上提升了 12.0%，在 AITW 上提升了 23.8%）。这标志着在缩小离线训练效率与在线多轮推理之间的差距方面取得了显著进展。代码可在https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1获取。

MobileAgent/UI-S1 at main · X-PLUG/MobileAgent

Mobile-Agent: The Powerful GUI Agent Family. Contribute to X-PLUG/MobileAgent development by creating an account on GitHub.

Takeaways，Limitations

•

Takeaways：

◦

一种半在线强化学习的提案，它将离线强化学习的稳定性与在线强化学习的多步骤任务执行能力相结合。

◦

通过自适应恢复和折扣未来回报捕获长期训练信号，以及通过补丁模块进行推出和专家路径。

◦

提出的半在线性能 (SOP) 指标与实际在线性能非常接近。

◦

通过在各种基准测试中与现有模型相比改进的性能来展示实用性。

•

Limitations：

◦

需要进一步验证所提出方法的泛化性能。

◦

需要对各种尺寸的模型进行性能评估和比较分析。

◦

需要进一步研究来确定 SOP 指标与实际在线性能之间的精确相关性。

◦

需要分析Patch Module的复杂性和计算成本。

Made with Slashpage