/
/
每日 Arxiv
每日 Arxiv
本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。
MOIS-SAM2:基于样本的“任何分割模型 2”,用于全身 MRI 中神经纤维瘤的多病变交互式分割
软指标,硬事实
Citrus-V:基于统一医学图像基础的先进医学基础模型,助力临床推理
长助短:监督微调中的上下文长度如何影响大型语言模型的行为
COLT:通过持续使用工具增强视频大型语言模型
视觉运动政策中需要本体感受状态吗?
CPCLDETECTOR:用于检测中文居高临下语言的知识增强和对齐选择
通过持续指令调整实现自我进化的法学硕士
Safe-SAIL:通过稀疏自动编码器解释框架实现大型语言模型的细粒度安全格局
法学硕士能否以无需训练的方式推理非文本模态?基于上下文表征学习的案例研究
通过残差量化为预排序赋予目标注意力
语音法学硕士 (LLM) 中的语境推理和副语言推理基准测试:基于自然数据的案例研究
开源从创始人领导到社区治理的转变模式
合成引导预训练
PromptSculptor:基于多代理的文本到图像提示优化
代码语义有用吗?基于执行轨迹的代码大型语言模型信息综合研究
UI-S1:通过半在线强化学习推进 GUI 自动化
结构很重要:通过可学习的边缘掩蔽增强脑图,实现数据高效的精神病诊断
超越服务前视野:融入服务中行为以改善财务风险预测
HumAine-Chatbot:通过强化学习实现实时个性化对话式人工智能
EAI-Avatar:情绪感知交互式说话头像生成
SciRerankBench:面向科学检索的基准重排序器——增强生成的 LLM
人工智能公司是否兑现了对白宫的自愿承诺?
在音频代码生成中嵌入对齐
Kron-LoRA:用于可扩展、可持续微调的混合 Kronecker-LoRA 适配器
从查询到逻辑:法学硕士 (LLM) 中的本体驱动多跳推理
测量计算机使用代理的危害性
利用自适应上下文压缩提高 RAG 效率
CANDLE:用于可解释的肌肉减少症诊断的跨模态代理知识提炼框架
Assay2Mol:基于大型语言模型、使用 BioAssay 上下文的药物设计
动态参数记忆:用于对话中长序列情绪识别的临时 LoRA 增强型 LLM
White-Basilisk:一种用于代码漏洞检测的混合模型
可再生能源共置人工智能数据中心的能源管理
VisualTrap:通过操纵视觉接地对 GUI 代理进行隐秘后门攻击
LoSiA:通过子网定位和优化实现高效的高秩微调
结构搜索:组合优化的无监督置换学习
HAZEMATCHING:利用引导条件流匹配对光学显微镜图像进行去雾
超越简单图:多重图上的神经多目标路由
面向实际应用的工程 RAG 系统:设计、开发和评估
CUPID:利用影响力函数整理机器人喜爱的数据
量子-经典混合量化神经网络
SurgVidLM:利用大型语言模型实现多粒度手术视频理解
为什么某些输入会破坏低位 LLM 量化?
用于皮肤癌分类的不确定性感知深度学习四步法
CellCLIP——通过文本引导的对比学习来学习细胞绘画中的扰动效应
Urania:对人工智能使用的差异化隐私洞察
RadialRouter:高效、稳健的大型语言模型路由的结构化表示
OmniSpatial:面向视觉语言模型的综合空间推理基准
局部化 LoRA:用于高效微调的结构化低秩近似
PathGene:使用多中心肺癌组织病理学图像数据集对驱动基因突变和外显子预测进行基准测试
信任还是不信任你的视觉语言模型的预测
SEM:增强空间理解,实现稳健的机器人操作
日期碎片:时间推理标记化的隐藏瓶颈
DISCO 平衡尺度:针对不平衡数据的自适应领域和难度感知强化学习
从不一致到一致:利用多路并行语料库扩展多语言法学硕士
重新审视残差连接:稳定高效的深度网络的正交更新
逐步引导策略优化:在 GRPO 中为错误推理着色
GSPRec:用于推荐的时间感知图谱过滤
EDBench:用于分子建模的大规模电子密度数据
小型还是大型?零样本还是微调?医疗保健专业应用的指导语言模型选择
LEMUR 神经网络数据集:迈向无缝 AutoML
面向多模态大型语言模型的视觉文本基础
非线性音频效应的无监督估计:基于扩散的方法和对抗方法的比较
DP-LET:一种高效的时空网络流量预测框架
具有动态奖励缩放的逆向强化学习,用于 LLM 对齐
自我中心愿景的挑战与趋势:一项调查
使用大型语言模型统一时间文本属性图的文本语义和图形结构
语言模型无法反思其语言知识
通过模仿周围车辆学习驾驶
基于通用 SMARTS 模板和数据增强的 Transformer 模型预测化学产品
复杂动力系统中的异常检测:使用嵌入理论和物理启发一致性的系统框架
通过全面的答案弥合信息差距:提高后续问题的多样性和信息量
HawkBench:研究 RAG 方法在分层信息搜索任务中的弹性
SoFar:基于语言的方向连接空间推理和对象操作
通过梯度下降进行紧凑的基于规则的分类器学习
BAP v2:Minecraft 对话中指令遵循的增强任务框架
表征收敛:相互提炼其实是一种正则化形式
盲人摸象:基准数据集中性别刻板印象的不同视角
Stylus:重新利用稳定扩散实现梅尔谱图上的无训练音乐风格迁移
扩散课程:通过图像引导扩散实现从合成到真实的生成课程学习
VLM 看,机器人做:通过视觉语言模型将人类演示视频转化为机器人行动计划
用于生成医疗记录的 GEN AI 框架
使用 ASCII 艺术逃避毒性检测:对审核系统进行空间攻击的基准
用于自动化医疗文档的大型语言模型的有效微调
任意精度和稀疏度的神经网络稳健训练
时空知识整合:大气时间序列预报的轻量级方法
DeNOTS:时间序列的稳定深度神经微分方程
TALEC:通过标准划分和零样本加少量样本,教授你的法学硕士在特定领域使用内部标准进行评估
RealitySummary:使用大型语言模型探索按需混合现实文本摘要和问答
CLIP 可以理解深度
CueGCL:面向无监督图对比学习的集群感知个性化自训练
在标签稀缺的情况下,预训练深度模型在学习排序方面的表现优于 GBDT
外部时间过程下的马尔可夫决策过程
MAPO:混合优势策略优化
相似场论:智能的通用数学框架
CogAtom:从认知原子到大型语言模型中的奥林匹克级数学推理
基于 LLM 的具身任务完成代理的计划验证
GRAFT:文本对齐的图形和表格推理——结构化教学跟踪和视觉推理的基准
医学环境下高效多模态法学硕士 (LLM) 的压缩策略
资源约束下理性主体的突发风险意识
Load more
CUPID:利用影响力函数整理机器人喜爱的数据
Created by
Haebom
作者
克里斯托弗·阿吉亚、罗汉·辛哈、杨靖云、丽卡·安东诺瓦、马可·帕沃内、西村春树、玛莎·伊特金娜、珍妮特·博格
大纲
本文强调,机器人模仿学习中的策略性能高度依赖于演示数据的质量和组成,然而,准确理解单个演示如何影响闭环任务的成功或失败等结果却极具挑战性。因此,我们提出了 CUPID,这是一种基于新颖的影响函数理论公式的机器人数据管理方法,用于模拟学习策略。CUPID 通过考虑一组评估 rollout 来估计每次训练演示对策略预期回报的影响,从而根据演示对策略闭环性能的影响对其进行排序和选择。CUPID 用于数据管理,通过过滤掉对策略性能不利的训练演示,并筛选出最有可能改进策略的新颖轨迹。仿真和硬件实验表明,该方法能够持续识别出在测试时推动性能的数据。例如,在模拟的 RoboMimic 基准测试中,通过使用不到 33% 的管理数据进行训练,即可实现最先进的扩散策略,并且在硬件上也观察到了类似的性能提升。此外,硬件实验表明,它可以识别对分布偏移具有鲁棒性的策略,隔离虚假相关性,甚至提升常见机器人策略的训练后性能。代码和视频可在
https://cupid-curation.github.io
获取。
CUPID: Curating Data your Robot Loves with Influence Functions
cupid-curation.github.io
Takeaways,Limitations
•
Takeaways:
◦
提出了一种通过模仿学习中的数据管理来提高政策绩效的新方法。
◦
证明即使使用少量数据也能实现尖端性能的可行性。
◦
验证对分布变化的稳健性和消除虚假相关性的可能性。
◦
提出提高一般机器人策略性能的可能性。
•
Limitations:
◦
所提出方法的有效性可能因所使用的数据集和任务而异。
◦
计算影响函数的计算成本可能很高。
◦
需要进一步研究实际机器人系统中的泛化性能。
查看 PDF
Made with Slashpage