每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成，并以非盈利为基础运营。
论文版权归作者及相关机构所有，分享时请注明出处。

桥接 Kolmogorov 复杂度与深度学习：Transformer 的渐近最优描述长度目标

谱崩溃导致深度持续学习中可塑性的丧失

MimicDreamer：协调人类和机器人演示，实现可扩展的 VLA 训练

R-Capsule：压缩高级计划以实现高效的大型语言模型推理

DiTraj：视频扩散变换器的免训练轨迹控制

Agribot：农业专用问答系统

$\Mathbf{Li_2}$：特征涌现和延迟泛化的动态框架

双头推理提炼：通过训练时间推理提高分类器准确率

稀疏子网络是否表现出认知一致的注意力？剪枝对显著图保真度、稀疏性和概念一致性的影响

面向零样本时间序列异常检测的基础模型：利用合成数据和相对上下文差异

精度越低，可靠性越高吗？量化对CLIP影响的系统评估（超越精度）

SiNGER：更清晰的声音进一步提炼视觉变形金刚

I-LAVA：面向座席的低延迟语音对语音架构洞察

在 HPC 中心部署容器化 GenAI 服务的经验

EmbeddingGemma：强大而轻量级的文本表示

超越尖锐极小值：通过反馈引导的多点优化实现稳健的 LLM 反学习

通过增强生成的强化学习为大型语言模型嵌入领域知识

负责任的人工智能技术报告

基于扩散的阻抗学习，用于接触丰富的操作任务

多样性促进人工智能生成的文本检测

SPiDR：模拟到现实迁移中零样本安全的简单方法

四月：强化学习中的主动部分推广，以驯服长尾生成

通过持续指令调整实现自我进化的法学硕士

组合结构的强化生成：复杂性理论的应用

联合内存频率和计算频率缩放以实现节能的 DNN 推理

StefaLand：一种高效的地球科学基础模型，可改进动态地表预测

核心空间中准确高效的低秩模型合并

开源从创始人领导到社区治理的转变模式

通过离线奖励评估和策略搜索增强生成式自动竞价

通过卷积解码和拒绝微调实现快速流畅的扩散语言模型

WorldForge：通过免训练指导解锁视频传播模型中的新兴 3D/4D 生成

TreeIRL：通过树搜索和逆向强化学习实现安全的城市驾驶

生成人工智能时代的本科数学考试评估：课程层面的案例研究

学习路由：用于多模态多任务预测的每样本自适应路由

MindVL：在 Ascend NPU 上高效且有效地训练多模态大型语言模型

FuseCodec：神经编解码器的语义上下文融合与监督

TalkPlayData 2：用于多模式对话音乐推荐的代理合成数据管道

通过双通道谱编码和潜在空间通信进行图形对齐

进化优化大型语言模型的系统综述：从建模到求解

DEPFusion：用于无人机多光谱物体检测的双域增强和优先级引导 Mamba 融合

COMPACT：跨通道和令牌的通用令牌优化模型修剪

BranchGRPO：扩散模型中具有结构化分支的稳定高效的 GRPO

预测的物理基础：通过法学硕士课程在神经类器官中形成世界模型

扩散生成模型与压缩感知相结合，应用于成像和金融

共同进化的复杂性：自动 MARL 课程的对抗框架

从杂货到日用百货：使用 LLM 和实时购物车上下文的交叉推荐系统

法学硕士（LLM）是否遵循标签定义？考察他们对外部标签定义的接受能力

GradES：基于梯度的早期停止方法显著加快 Transformer 的训练速度

通用全模型能与专家模型竞争吗？医学图像分割案例研究

用于知识密集型视觉问答的多模态迭代 RAG

TReF-6：从单次演示中推断任务相关框架以实现一次性技能泛化

评估 Wav2Vec 2.0、XLS-R 和 Whisper 中的 Transformer 层在说话人识别任务中的有效性

以推理成本进行端到端设备上的 LLM 量化感知训练

使用生成大型语言模型（LLM）自动生成问答

CORE-RAG：通过强化学习实现检索增强型 LLM 的无损压缩

对于 DPO 来说数据什么最重要？

类型兼容的级联适配：使程序化的语言模型工作流适应数据

推测安全感知解码

Jet-Nemotron：具有后神经架构搜索的高效语言模型

从粗到精的个性化 LLM 印象，打造精简的放射学报告

ECHO：可变长度信号的频率感知分层编码

你只需要硬示例：在注释预算下最大化 GRPO 后训练

RLVR 中的深度-广度协同：通过自适应探索释放 LLM 推理优势

时间推理的对比表征

用于图像伪造识别的语义差异感知检测器

G-CUT3R：基于相机和深度先验集成的引导式三维重建

BLADE：块稀疏注意力与分步蒸馏相结合，实现高效视频生成

PakBBQ：一种适应文化的 QA 偏见基准

MoQE：通过混合量化专家提高量化模型性能

精明的导师还是泛泛而谈的导师？评估苏格拉底式法学硕士的教学指导能力

超越提示诱导的谎言：调查法学硕士（LLM）学生在良性提示下的欺骗行为

AttriLens-Mol：基于属性引导的强化学习，利用大型语言模型进行分子特性预测

雕塑家：通过主动情境管理赋予法学硕士认知能动性

CTTS：集体测试时间缩放

皮质计算的几何：VCNet 中的流形解缠和预测动力学

沟通计划，而非感知：具有具体世界模型的可扩展多智能体协调

语言模型可以发现缩放规律吗？

当工程超越智能：重新思考指令引导导航

用于语言建模的马尔可夫分类框架

走出去：基于物理基础的人机协作

GLANCE：具有聚类增强功能的图形逻辑注意力网络，用于异构图形表示学习

不断发展的科学考试

Omni-Thinker：通过混合奖励和任务调度在 LLM 中扩展多任务 RL

GRID：可扩展的、与任务无关的、基于提示的语言模型持续学习

学习从人类反馈中总结用户信息，实现个性化强化学习

将语言模型变成分层分类器

Vidar：用于通用操作的具身视频传播模型

BenchRL-QAS：用于量子架构搜索的基准强化学习算法

函数归纳与任务泛化：基于差一加法的可解释性研究

通过随机密钥选择减轻生成模型中的水印伪造

熵-记忆定律：评估法学硕士（LLM）中数据的记忆难度

CoSteer：通过局部增量转向实现协作解码时间个性化

PRIME：具有认知双记忆和个性化思维过程的大型语言模型个性化

模型崩溃不是一个缺陷，而是法学硕士机器学习的一个特性

潜在的思维链？解码深度循环Transformer

互可见性问题的启发式和近似算法的实证分析

学习车辆路径问题的分割

通过求解器-验证器差距对法学硕士自我提升训练动力学进行理论建模

数据一致性通过超越 NTK 机制的融合框架提高训练效率及其他优势

大型语言模型的语义引导多样化解码

MimicDreamer：协调人类和机器人演示，实现可扩展的 VLA 训练

Created by

Haebom

作者

李浩云、张伊凡、欧阳润奇、王晓峰、朱铮、杨志勤、张振涛、王博源、倪超军、秦文康、陈新泽、叶云、黄冠、宋振波、王新刚

大纲

本文提出了 MimicDreamer，这是一个用于训练视觉语言动作 (VLA) 模型的全新框架，它利用现成的人类演示视频，而非收集昂贵的机器人交互数据。MimicDreamer 通过对齐视觉、视点和动作数据，将人类演示视频转换为机器人可用的格式，从而支持 VLA 模型训练。具体而言，H2R Aligner 根据人类演示视频生成机器人演示视频，EgoStabilizer 稳定视点，动作对齐将人手轨迹映射到机器人坐标系，以生成机器人关节指令。实验结果表明，使用 MimicDreamer 生成的合成数据训练的 VLA 模型能够在少量试验内对真实机器人执行任务，其性能优于仅使用真实机器人数据训练的模型。

Takeaways, Limitations

•

Takeaways：

◦

利用人类演示视频可以降低获取机器人训练数据的成本。

◦

利用我们的新框架 MimicDreamer 有效地弥合人类演示视频和机器人环境之间的差距。

◦

利用合成数据来提高 VLA 模型的性能，获得比仅使用真实机器人数据更好的结果。

•

Limitations：

◦

由于我们依靠人类演示数据来提高性能，因此结果可能会因人类演示数据的质量而异。

◦

整体框架的性能可能受到 H2R Aligner、EgoStabilizer 和 Action Alignment 模块性能的限制。

◦

仅给出了六个代表性操作任务的实验结果，因此需要进一步验证各种机器人环境和任务的泛化性能。

Made with Slashpage