每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成，并以非盈利为基础运营。
论文版权归作者及相关机构所有，分享时请注明出处。

桥接 Kolmogorov 复杂度与深度学习：Transformer 的渐近最优描述长度目标

谱崩溃导致深度持续学习中可塑性的丧失

MimicDreamer：协调人类和机器人演示，实现可扩展的 VLA 训练

R-Capsule：压缩高级计划以实现高效的大型语言模型推理

DiTraj：视频扩散变换器的免训练轨迹控制

Agribot：农业专用问答系统

$\Mathbf{Li_2}$：特征涌现和延迟泛化的动态框架

双头推理提炼：通过训练时间推理提高分类器准确率

稀疏子网络是否表现出认知一致的注意力？剪枝对显著图保真度、稀疏性和概念一致性的影响

面向零样本时间序列异常检测的基础模型：利用合成数据和相对上下文差异

精度越低，可靠性越高吗？量化对CLIP影响的系统评估（超越精度）

SiNGER：更清晰的声音进一步提炼视觉变形金刚

I-LAVA：面向座席的低延迟语音对语音架构洞察

在 HPC 中心部署容器化 GenAI 服务的经验

EmbeddingGemma：强大而轻量级的文本表示

超越尖锐极小值：通过反馈引导的多点优化实现稳健的 LLM 反学习

通过增强生成的强化学习为大型语言模型嵌入领域知识

负责任的人工智能技术报告

基于扩散的阻抗学习，用于接触丰富的操作任务

多样性促进人工智能生成的文本检测

SPiDR：模拟到现实迁移中零样本安全的简单方法

四月：强化学习中的主动部分推广，以驯服长尾生成

通过持续指令调整实现自我进化的法学硕士

组合结构的强化生成：复杂性理论的应用

联合内存频率和计算频率缩放以实现节能的 DNN 推理

StefaLand：一种高效的地球科学基础模型，可改进动态地表预测

核心空间中准确高效的低秩模型合并

开源从创始人领导到社区治理的转变模式

通过离线奖励评估和策略搜索增强生成式自动竞价

通过卷积解码和拒绝微调实现快速流畅的扩散语言模型

WorldForge：通过免训练指导解锁视频传播模型中的新兴 3D/4D 生成

TreeIRL：通过树搜索和逆向强化学习实现安全的城市驾驶

生成人工智能时代的本科数学考试评估：课程层面的案例研究

学习路由：用于多模态多任务预测的每样本自适应路由

MindVL：在 Ascend NPU 上高效且有效地训练多模态大型语言模型

FuseCodec：神经编解码器的语义上下文融合与监督

TalkPlayData 2：用于多模式对话音乐推荐的代理合成数据管道

通过双通道谱编码和潜在空间通信进行图形对齐

进化优化大型语言模型的系统综述：从建模到求解

DEPFusion：用于无人机多光谱物体检测的双域增强和优先级引导 Mamba 融合

COMPACT：跨通道和令牌的通用令牌优化模型修剪

BranchGRPO：扩散模型中具有结构化分支的稳定高效的 GRPO

预测的物理基础：通过法学硕士课程在神经类器官中形成世界模型

扩散生成模型与压缩感知相结合，应用于成像和金融

共同进化的复杂性：自动 MARL 课程的对抗框架

从杂货到日用百货：使用 LLM 和实时购物车上下文的交叉推荐系统

法学硕士（LLM）是否遵循标签定义？考察他们对外部标签定义的接受能力

GradES：基于梯度的早期停止方法显著加快 Transformer 的训练速度

通用全模型能与专家模型竞争吗？医学图像分割案例研究

用于知识密集型视觉问答的多模态迭代 RAG

TReF-6：从单次演示中推断任务相关框架以实现一次性技能泛化

评估 Wav2Vec 2.0、XLS-R 和 Whisper 中的 Transformer 层在说话人识别任务中的有效性

以推理成本进行端到端设备上的 LLM 量化感知训练

使用生成大型语言模型（LLM）自动生成问答

CORE-RAG：通过强化学习实现检索增强型 LLM 的无损压缩

对于 DPO 来说数据什么最重要？

类型兼容的级联适配：使程序化的语言模型工作流适应数据

推测安全感知解码

Jet-Nemotron：具有后神经架构搜索的高效语言模型

从粗到精的个性化 LLM 印象，打造精简的放射学报告

ECHO：可变长度信号的频率感知分层编码

你只需要硬示例：在注释预算下最大化 GRPO 后训练

RLVR 中的深度-广度协同：通过自适应探索释放 LLM 推理优势

时间推理的对比表征

用于图像伪造识别的语义差异感知检测器

G-CUT3R：基于相机和深度先验集成的引导式三维重建

BLADE：块稀疏注意力与分步蒸馏相结合，实现高效视频生成

PakBBQ：一种适应文化的 QA 偏见基准

MoQE：通过混合量化专家提高量化模型性能

精明的导师还是泛泛而谈的导师？评估苏格拉底式法学硕士的教学指导能力

超越提示诱导的谎言：调查法学硕士（LLM）学生在良性提示下的欺骗行为

AttriLens-Mol：基于属性引导的强化学习，利用大型语言模型进行分子特性预测

雕塑家：通过主动情境管理赋予法学硕士认知能动性

CTTS：集体测试时间缩放

皮质计算的几何：VCNet 中的流形解缠和预测动力学

沟通计划，而非感知：具有具体世界模型的可扩展多智能体协调

语言模型可以发现缩放规律吗？

当工程超越智能：重新思考指令引导导航

用于语言建模的马尔可夫分类框架

走出去：基于物理基础的人机协作

GLANCE：具有聚类增强功能的图形逻辑注意力网络，用于异构图形表示学习

不断发展的科学考试

Omni-Thinker：通过混合奖励和任务调度在 LLM 中扩展多任务 RL

GRID：可扩展的、与任务无关的、基于提示的语言模型持续学习

学习从人类反馈中总结用户信息，实现个性化强化学习

将语言模型变成分层分类器

Vidar：用于通用操作的具身视频传播模型

BenchRL-QAS：用于量子架构搜索的基准强化学习算法

函数归纳与任务泛化：基于差一加法的可解释性研究

通过随机密钥选择减轻生成模型中的水印伪造

熵-记忆定律：评估法学硕士（LLM）中数据的记忆难度

CoSteer：通过局部增量转向实现协作解码时间个性化

PRIME：具有认知双记忆和个性化思维过程的大型语言模型个性化

模型崩溃不是一个缺陷，而是法学硕士机器学习的一个特性

潜在的思维链？解码深度循环Transformer

互可见性问题的启发式和近似算法的实证分析

学习车辆路径问题的分割

通过求解器-验证器差距对法学硕士自我提升训练动力学进行理论建模

数据一致性通过超越 NTK 机制的融合框架提高训练效率及其他优势

大型语言模型的语义引导多样化解码

用于语言建模的马尔可夫分类框架

Created by

Haebom

作者

张一凡

大纲

自回归语言模型展现出令人印象深刻的性能，但仍缺乏统一的理论来解释其内部机制、训练如何塑造表征以及如何实现复杂行为。本文提出了一个新颖的分析框架，该框架使用马尔可夫分类语言将单步生成建模为信息处理阶段的组合。这种组合视角提供了一种统一的数学语言，将语言建模的三个关键方面（通常分别研究）联系起来：训练目标、学习表征空间的几何形状以及模型的实际功能。首先，该框架为推测解码等多标记预测方法的成功提供了精确的信息论基础，量化了模型隐藏状态中包含的关于紧接的下一个标记之外的标记的信息盈余。其次，它阐明了标准负对数似然 (NLL) 目标如何迫使模型不仅学习下一个单词，还要学习数据固有的条件不确定性，并使用分类熵将其形式化。我们的主要结果表明，在假设线性softmax头和有界特征的情况下，最小化NLL可以实现谱对齐：学习到的表征空间与预测相似性算子的固有谱对齐。这项研究为信息如何在模型中流动以及训练目标如何塑造其内部几何结构提供了强有力的新见解。

Takeaways，Limitations

•

Takeaways：

◦

提出了一种新的分析框架来理解语言模型的内部机制。

◦

为多标记预测方法的成功提供信息论依据。

◦

阐明 NLL 目标如何指导学习数据的条件不确定性。

◦

识别学习到的表示空间与预测的相似算子的特征谱之间的关系（谱对齐）。

◦

有助于理解语言模型中的信息流和训练目标如何塑造其内部结构。

•

Limitations：

◦

包括关于线性 Softmax 头和有界特征的假设。

◦

可能仅限于特定的模型架构和训练设置。

◦

所提出的框架可能无法完全解释所有语言模型的行为。

Made with Slashpage