每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成，并以非盈利为基础运营。
论文版权归作者及相关机构所有，分享时请注明出处。

桥接 Kolmogorov 复杂度与深度学习：Transformer 的渐近最优描述长度目标

谱崩溃导致深度持续学习中可塑性的丧失

MimicDreamer：协调人类和机器人演示，实现可扩展的 VLA 训练

R-Capsule：压缩高级计划以实现高效的大型语言模型推理

DiTraj：视频扩散变换器的免训练轨迹控制

Agribot：农业专用问答系统

$\Mathbf{Li_2}$：特征涌现和延迟泛化的动态框架

双头推理提炼：通过训练时间推理提高分类器准确率

稀疏子网络是否表现出认知一致的注意力？剪枝对显著图保真度、稀疏性和概念一致性的影响

面向零样本时间序列异常检测的基础模型：利用合成数据和相对上下文差异

精度越低，可靠性越高吗？量化对CLIP影响的系统评估（超越精度）

SiNGER：更清晰的声音进一步提炼视觉变形金刚

I-LAVA：面向座席的低延迟语音对语音架构洞察

在 HPC 中心部署容器化 GenAI 服务的经验

EmbeddingGemma：强大而轻量级的文本表示

超越尖锐极小值：通过反馈引导的多点优化实现稳健的 LLM 反学习

通过增强生成的强化学习为大型语言模型嵌入领域知识

负责任的人工智能技术报告

基于扩散的阻抗学习，用于接触丰富的操作任务

多样性促进人工智能生成的文本检测

SPiDR：模拟到现实迁移中零样本安全的简单方法

四月：强化学习中的主动部分推广，以驯服长尾生成

通过持续指令调整实现自我进化的法学硕士

组合结构的强化生成：复杂性理论的应用

联合内存频率和计算频率缩放以实现节能的 DNN 推理

StefaLand：一种高效的地球科学基础模型，可改进动态地表预测

核心空间中准确高效的低秩模型合并

开源从创始人领导到社区治理的转变模式

通过离线奖励评估和策略搜索增强生成式自动竞价

通过卷积解码和拒绝微调实现快速流畅的扩散语言模型

WorldForge：通过免训练指导解锁视频传播模型中的新兴 3D/4D 生成

TreeIRL：通过树搜索和逆向强化学习实现安全的城市驾驶

生成人工智能时代的本科数学考试评估：课程层面的案例研究

学习路由：用于多模态多任务预测的每样本自适应路由

MindVL：在 Ascend NPU 上高效且有效地训练多模态大型语言模型

FuseCodec：神经编解码器的语义上下文融合与监督

TalkPlayData 2：用于多模式对话音乐推荐的代理合成数据管道

通过双通道谱编码和潜在空间通信进行图形对齐

进化优化大型语言模型的系统综述：从建模到求解

DEPFusion：用于无人机多光谱物体检测的双域增强和优先级引导 Mamba 融合

COMPACT：跨通道和令牌的通用令牌优化模型修剪

BranchGRPO：扩散模型中具有结构化分支的稳定高效的 GRPO

预测的物理基础：通过法学硕士课程在神经类器官中形成世界模型

扩散生成模型与压缩感知相结合，应用于成像和金融

共同进化的复杂性：自动 MARL 课程的对抗框架

从杂货到日用百货：使用 LLM 和实时购物车上下文的交叉推荐系统

法学硕士（LLM）是否遵循标签定义？考察他们对外部标签定义的接受能力

GradES：基于梯度的早期停止方法显著加快 Transformer 的训练速度

通用全模型能与专家模型竞争吗？医学图像分割案例研究

用于知识密集型视觉问答的多模态迭代 RAG

TReF-6：从单次演示中推断任务相关框架以实现一次性技能泛化

评估 Wav2Vec 2.0、XLS-R 和 Whisper 中的 Transformer 层在说话人识别任务中的有效性

以推理成本进行端到端设备上的 LLM 量化感知训练

使用生成大型语言模型（LLM）自动生成问答

CORE-RAG：通过强化学习实现检索增强型 LLM 的无损压缩

对于 DPO 来说数据什么最重要？

类型兼容的级联适配：使程序化的语言模型工作流适应数据

推测安全感知解码

Jet-Nemotron：具有后神经架构搜索的高效语言模型

从粗到精的个性化 LLM 印象，打造精简的放射学报告

ECHO：可变长度信号的频率感知分层编码

你只需要硬示例：在注释预算下最大化 GRPO 后训练

RLVR 中的深度-广度协同：通过自适应探索释放 LLM 推理优势

时间推理的对比表征

用于图像伪造识别的语义差异感知检测器

G-CUT3R：基于相机和深度先验集成的引导式三维重建

BLADE：块稀疏注意力与分步蒸馏相结合，实现高效视频生成

PakBBQ：一种适应文化的 QA 偏见基准

MoQE：通过混合量化专家提高量化模型性能

精明的导师还是泛泛而谈的导师？评估苏格拉底式法学硕士的教学指导能力

超越提示诱导的谎言：调查法学硕士（LLM）学生在良性提示下的欺骗行为

AttriLens-Mol：基于属性引导的强化学习，利用大型语言模型进行分子特性预测

雕塑家：通过主动情境管理赋予法学硕士认知能动性

CTTS：集体测试时间缩放

皮质计算的几何：VCNet 中的流形解缠和预测动力学

沟通计划，而非感知：具有具体世界模型的可扩展多智能体协调

语言模型可以发现缩放规律吗？

当工程超越智能：重新思考指令引导导航

用于语言建模的马尔可夫分类框架

走出去：基于物理基础的人机协作

GLANCE：具有聚类增强功能的图形逻辑注意力网络，用于异构图形表示学习

不断发展的科学考试

Omni-Thinker：通过混合奖励和任务调度在 LLM 中扩展多任务 RL

GRID：可扩展的、与任务无关的、基于提示的语言模型持续学习

学习从人类反馈中总结用户信息，实现个性化强化学习

将语言模型变成分层分类器

Vidar：用于通用操作的具身视频传播模型

BenchRL-QAS：用于量子架构搜索的基准强化学习算法

函数归纳与任务泛化：基于差一加法的可解释性研究

通过随机密钥选择减轻生成模型中的水印伪造

熵-记忆定律：评估法学硕士（LLM）中数据的记忆难度

CoSteer：通过局部增量转向实现协作解码时间个性化

PRIME：具有认知双记忆和个性化思维过程的大型语言模型个性化

模型崩溃不是一个缺陷，而是法学硕士机器学习的一个特性

潜在的思维链？解码深度循环Transformer

互可见性问题的启发式和近似算法的实证分析

学习车辆路径问题的分割

通过求解器-验证器差距对法学硕士自我提升训练动力学进行理论建模

数据一致性通过超越 NTK 机制的融合框架提高训练效率及其他优势

大型语言模型的语义引导多样化解码

四月：强化学习中的主动部分推广，以驯服长尾生成

Created by

Haebom

作者

周玉珍、李家军、苏玉生、Gwtham Ramesh、朱紫琳、龙翔、赵晨阳、潘锦、于晓东、王泽、杜康瑞、吴嘉莲、孙希萌、刘江、余巧琳、陈浩、刘子成、Emad Barsoum

大纲

强化学习 (RL) 在推进大规模预训练语言模型 (LLM) 的发展中发挥了至关重要的作用，GPT-o 系列、DeepSeek-R1、Kimi-K1.5、Grok 4 和 GLM-4.5 等模型都通过 RL 训练提升了推理和编码能力。然而，RL 训练仍然需要耗费大量的计算资源，rollout 生成占总运行时间的 90% 以上。rollout 响应长度的长尾分布限制了效率，少数长响应会延迟整个批次，从而导致 GPU 空闲。为了解决这个问题，作者提出了强化学习中的主动部分 rollout (APRIL) 算法，以缓解长尾效率低下的问题。APRIL 在 rollout 阶段会过度预置 rollout 请求，在达到目标响应数量时终止，并回收未完成的响应以供将来使用。实验结果表明，与常用的强化学习算法（GRPO、DAPO 和 GSPO）相比，APRIL 可将 rollout 吞吐量平均提升 22.5%（最高可达 44%），加速收敛，并在各任务中实现平均 2.1%（最高可达 8%）的最终准确率提升。APRIL 与框架和硬件无关，已集成到 Slime 强化学习框架中，并且可部署在 NVIDIA 和 AMD GPU 上。

Takeaways，Limitations

•

Takeaways：

◦

APRIL 提出了一种提高 RL 训练效率的新技术。

◦

它显示出改进的推出吞吐量和最终准确性，以及改进的收敛速度。

◦

适用于各种RL算法和硬件环境。

•

Limitations：

◦

论文中没有具体提及Limitations。

◦

实验结果可能仅限于特定的 RL 算法和任务。

◦

APRIL 的有效性可能因模型大小和任务难度而异。

Made with Slashpage