每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成，并以非盈利为基础运营。
论文版权归作者及相关机构所有，分享时请注明出处。

MOIS-SAM2：基于样本的“任何分割模型 2”，用于全身 MRI 中神经纤维瘤的多病变交互式分割

软指标，硬事实

Citrus-V：基于统一医学图像基础的先进医学基础模型，助力临床推理

长助短：监督微调中的上下文长度如何影响大型语言模型的行为

COLT：通过持续使用工具增强视频大型语言模型

视觉运动政策中需要本体感受状态吗？

CPCLDETECTOR：用于检测中文居高临下语言的知识增强和对齐选择

通过持续指令调整实现自我进化的法学硕士

Safe-SAIL：通过稀疏自动编码器解释框架实现大型语言模型的细粒度安全格局

法学硕士能否以无需训练的方式推理非文本模态？基于上下文表征学习的案例研究

通过残差量化为预排序赋予目标注意力

语音法学硕士 (LLM) 中的语境推理和副语言推理基准测试：基于自然数据的案例研究

开源从创始人领导到社区治理的转变模式

合成引导预训练

PromptSculptor：基于多代理的文本到图像提示优化

代码语义有用吗？基于执行轨迹的代码大型语言模型信息综合研究

UI-S1：通过半在线强化学习推进 GUI 自动化

结构很重要：通过可学习的边缘掩蔽增强脑图，实现数据高效的精神病诊断

超越服务前视野：融入服务中行为以改善财务风险预测

HumAine-Chatbot：通过强化学习实现实时个性化对话式人工智能

EAI-Avatar：情绪感知交互式说话头像生成

SciRerankBench：面向科学检索的基准重排序器——增强生成的 LLM

人工智能公司是否兑现了对白宫的自愿承诺？

在音频代码生成中嵌入对齐

Kron-LoRA：用于可扩展、可持续微调的混合 Kronecker-LoRA 适配器

从查询到逻辑：法学硕士 (LLM) 中的本体驱动多跳推理

测量计算机使用代理的危害性

利用自适应上下文压缩提高 RAG 效率

CANDLE：用于可解释的肌肉减少症诊断的跨模态代理知识提炼框架

Assay2Mol：基于大型语言模型、使用 BioAssay 上下文的药物设计

动态参数记忆：用于对话中长序列情绪识别的临时 LoRA 增强型 LLM

White-Basilisk：一种用于代码漏洞检测的混合模型

可再生能源共置人工智能数据中心的能源管理

VisualTrap：通过操纵视觉接地对 GUI 代理进行隐秘后门攻击

LoSiA：通过子网定位和优化实现高效的高秩微调

结构搜索：组合优化的无监督置换学习

HAZEMATCHING：利用引导条件流匹配对光学显微镜图像进行去雾

超越简单图：多重图上的神经多目标路由

面向实际应用的工程 RAG 系统：设计、开发和评估

CUPID：利用影响力函数整理机器人喜爱的数据

量子-经典混合量化神经网络

SurgVidLM：利用大型语言模型实现多粒度手术视频理解

为什么某些输入会破坏低位 LLM 量化？

用于皮肤癌分类的不确定性感知深度学习四步法

CellCLIP——通过文本引导的对比学习来学习细胞绘画中的扰动效应

Urania：对人工智能使用的差异化隐私洞察

RadialRouter：高效、稳健的大型语言模型路由的结构化表示

OmniSpatial：面向视觉语言模型的综合空间推理基准

局部化 LoRA：用于高效微调的结构化低秩近似

PathGene：使用多中心肺癌组织病理学图像数据集对驱动基因突变和外显子预测进行基准测试

信任还是不信任你的视觉语言模型的预测

SEM：增强空间理解，实现稳健的机器人操作

日期碎片：时间推理标记化的隐藏瓶颈

DISCO 平衡尺度：针对不平衡数据的自适应领域和难度感知强化学习

从不一致到一致：利用多路并行语料库扩展多语言法学硕士

重新审视残差连接：稳定高效的深度网络的正交更新

逐步引导策略优化：在 GRPO 中为错误推理着色

GSPRec：用于推荐的时间感知图谱过滤

EDBench：用于分子建模的大规模电子密度数据

小型还是大型？零样本还是微调？医疗保健专业应用的指导语言模型选择

LEMUR 神经网络数据集：迈向无缝 AutoML

面向多模态大型语言模型的视觉文本基础

非线性音频效应的无监督估计：基于扩散的方法和对抗方法的比较

DP-LET：一种高效的时空网络流量预测框架

具有动态奖励缩放的逆向强化学习，用于 LLM 对齐

自我中心愿景的挑战与趋势：一项调查

使用大型语言模型统一时间文本属性图的文本语义和图形结构

语言模型无法反思其语言知识

通过模仿周围车辆学习驾驶

基于通用 SMARTS 模板和数据增强的 Transformer 模型预测化学产品

复杂动力系统中的异常检测：使用嵌入理论和物理启发一致性的系统框架

通过全面的答案弥合信息差距：提高后续问题的多样性和信息量

HawkBench：研究 RAG 方法在分层信息搜索任务中的弹性

SoFar：基于语言的方向连接空间推理和对象操作

通过梯度下降进行紧凑的基于规则的分类器学习

BAP v2：Minecraft 对话中指令遵循的增强任务框架

表征收敛：相互提炼其实是一种正则化形式

盲人摸象：基准数据集中性别刻板印象的不同视角

Stylus：重新利用稳定扩散实现梅尔谱图上的无训练音乐风格迁移

扩散课程：通过图像引导扩散实现从合成到真实的生成课程学习

VLM 看，机器人做：通过视觉语言模型将人类演示视频转化为机器人行动计划

用于生成医疗记录的 GEN AI 框架

使用 ASCII 艺术逃避毒性检测：对审核系统进行空间攻击的基准

用于自动化医疗文档的大型语言模型的有效微调

任意精度和稀疏度的神经网络稳健训练

时空知识整合：大气时间序列预报的轻量级方法

DeNOTS：时间序列的稳定深度神经微分方程

TALEC：通过标准划分和零样本加少量样本，教授你的法学硕士在特定领域使用内部标准进行评估

RealitySummary：使用大型语言模型探索按需混合现实文本摘要和问答

CLIP 可以理解深度

CueGCL：面向无监督图对比学习的集群感知个性化自训练

在标签稀缺的情况下，预训练深度模型在学习排序方面的表现优于 GBDT

外部时间过程下的马尔可夫决策过程

MAPO：混合优势策略优化

相似场论：智能的通用数学框架

CogAtom：从认知原子到大型语言模型中的奥林匹克级数学推理

基于 LLM 的具身任务完成代理的计划验证

GRAFT：文本对齐的图形和表格推理——结构化教学跟踪和视觉推理的基准

医学环境下高效多模态法学硕士 (LLM) 的压缩策略

资源约束下理性主体的突发风险意识

基于 LLM 的具身任务完成代理的计划验证

Created by

Haebom

作者

Ananth Hariharan、Vardhan Dongre、Dilek Hakkani-T ur、Gokhan Tur

大纲

本文探讨了基于大规模语言模型 (LLM) 的人工智能实现任务规划及其相应的人工演示，由于不必要的操作、冗余探索和逻辑错误，可能会降低策略质量的问题。为了解决这个问题，我们提出了一个迭代验证框架，其中判断型 LLM 负责评估动作序列，而规划型 LLM 负责应用修正。与基于规则的方法不同，该方法依赖于自然语言提示，能够广泛泛化各种错误类型，包括不相关的操作、矛盾和缺失步骤。在 TEACh 人工智能实现数据集中手动注释的操作集上，该框架在四个最先进的 LLM（GPT-4-mini、DeepSeek-R1、Gemini 2.5 和 LLaMA 4 Scout）上实现了高达 90% 的召回率和 100% 的准确率。改进后的循环收敛速度很快，96.5% 的序列最多可进行三次迭代，从而提高了时间效率和空间动作组合。重要的是，该方法保留了人为错误恢复模式，为未来稳健纠正行为的研究提供支持。通过将规划验证确立为空间规划和行为改进的可靠 LLM 函数，本研究为人工智能中的模仿学习提供了一条可扩展的高质量训练数据获取途径。

Takeaways, Limitations

•

Takeaways：

◦

我们证明，可以通过使用 LLM 的迭代计划验证框架来提高 AI 任务计划的质量。

◦

基于自然语言提示的方法可确保各种类型错误的普遍性。

◦

提高时间效率和空间行为组织。

◦

通过保留人为错误恢复模式，有助于研究强大的纠正行为。

◦

我们提出了一种可扩展的方法来生成用于模仿学习的高质量训练数据。

•

Limitations：

◦

目前实验结果仅限于TEACh数据集，需要进一步研究以确定其对其他数据集的通用性。

◦

这取决于LLM的表现，LLM的局限性可能会影响结果。

◦

需要验证复杂任务或多样化情况的泛化性能。

Made with Slashpage