每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成，并以非盈利为基础运营。
论文版权归作者及相关机构所有，分享时请注明出处。

桥接 Kolmogorov 复杂度与深度学习：Transformer 的渐近最优描述长度目标

谱崩溃导致深度持续学习中可塑性的丧失

MimicDreamer：协调人类和机器人演示，实现可扩展的 VLA 训练

R-Capsule：压缩高级计划以实现高效的大型语言模型推理

DiTraj：视频扩散变换器的免训练轨迹控制

Agribot：农业专用问答系统

$\Mathbf{Li_2}$：特征涌现和延迟泛化的动态框架

双头推理提炼：通过训练时间推理提高分类器准确率

稀疏子网络是否表现出认知一致的注意力？剪枝对显著图保真度、稀疏性和概念一致性的影响

面向零样本时间序列异常检测的基础模型：利用合成数据和相对上下文差异

精度越低，可靠性越高吗？量化对CLIP影响的系统评估（超越精度）

SiNGER：更清晰的声音进一步提炼视觉变形金刚

I-LAVA：面向座席的低延迟语音对语音架构洞察

在 HPC 中心部署容器化 GenAI 服务的经验

EmbeddingGemma：强大而轻量级的文本表示

超越尖锐极小值：通过反馈引导的多点优化实现稳健的 LLM 反学习

通过增强生成的强化学习为大型语言模型嵌入领域知识

负责任的人工智能技术报告

基于扩散的阻抗学习，用于接触丰富的操作任务

多样性促进人工智能生成的文本检测

SPiDR：模拟到现实迁移中零样本安全的简单方法

四月：强化学习中的主动部分推广，以驯服长尾生成

通过持续指令调整实现自我进化的法学硕士

组合结构的强化生成：复杂性理论的应用

联合内存频率和计算频率缩放以实现节能的 DNN 推理

StefaLand：一种高效的地球科学基础模型，可改进动态地表预测

核心空间中准确高效的低秩模型合并

开源从创始人领导到社区治理的转变模式

通过离线奖励评估和策略搜索增强生成式自动竞价

通过卷积解码和拒绝微调实现快速流畅的扩散语言模型

WorldForge：通过免训练指导解锁视频传播模型中的新兴 3D/4D 生成

TreeIRL：通过树搜索和逆向强化学习实现安全的城市驾驶

生成人工智能时代的本科数学考试评估：课程层面的案例研究

学习路由：用于多模态多任务预测的每样本自适应路由

MindVL：在 Ascend NPU 上高效且有效地训练多模态大型语言模型

FuseCodec：神经编解码器的语义上下文融合与监督

TalkPlayData 2：用于多模式对话音乐推荐的代理合成数据管道

通过双通道谱编码和潜在空间通信进行图形对齐

进化优化大型语言模型的系统综述：从建模到求解

DEPFusion：用于无人机多光谱物体检测的双域增强和优先级引导 Mamba 融合

COMPACT：跨通道和令牌的通用令牌优化模型修剪

BranchGRPO：扩散模型中具有结构化分支的稳定高效的 GRPO

预测的物理基础：通过法学硕士课程在神经类器官中形成世界模型

扩散生成模型与压缩感知相结合，应用于成像和金融

共同进化的复杂性：自动 MARL 课程的对抗框架

从杂货到日用百货：使用 LLM 和实时购物车上下文的交叉推荐系统

法学硕士（LLM）是否遵循标签定义？考察他们对外部标签定义的接受能力

GradES：基于梯度的早期停止方法显著加快 Transformer 的训练速度

通用全模型能与专家模型竞争吗？医学图像分割案例研究

用于知识密集型视觉问答的多模态迭代 RAG

TReF-6：从单次演示中推断任务相关框架以实现一次性技能泛化

评估 Wav2Vec 2.0、XLS-R 和 Whisper 中的 Transformer 层在说话人识别任务中的有效性

以推理成本进行端到端设备上的 LLM 量化感知训练

使用生成大型语言模型（LLM）自动生成问答

CORE-RAG：通过强化学习实现检索增强型 LLM 的无损压缩

对于 DPO 来说数据什么最重要？

类型兼容的级联适配：使程序化的语言模型工作流适应数据

推测安全感知解码

Jet-Nemotron：具有后神经架构搜索的高效语言模型

从粗到精的个性化 LLM 印象，打造精简的放射学报告

ECHO：可变长度信号的频率感知分层编码

你只需要硬示例：在注释预算下最大化 GRPO 后训练

RLVR 中的深度-广度协同：通过自适应探索释放 LLM 推理优势

时间推理的对比表征

用于图像伪造识别的语义差异感知检测器

G-CUT3R：基于相机和深度先验集成的引导式三维重建

BLADE：块稀疏注意力与分步蒸馏相结合，实现高效视频生成

PakBBQ：一种适应文化的 QA 偏见基准

MoQE：通过混合量化专家提高量化模型性能

精明的导师还是泛泛而谈的导师？评估苏格拉底式法学硕士的教学指导能力

超越提示诱导的谎言：调查法学硕士（LLM）学生在良性提示下的欺骗行为

AttriLens-Mol：基于属性引导的强化学习，利用大型语言模型进行分子特性预测

雕塑家：通过主动情境管理赋予法学硕士认知能动性

CTTS：集体测试时间缩放

皮质计算的几何：VCNet 中的流形解缠和预测动力学

沟通计划，而非感知：具有具体世界模型的可扩展多智能体协调

语言模型可以发现缩放规律吗？

当工程超越智能：重新思考指令引导导航

用于语言建模的马尔可夫分类框架

走出去：基于物理基础的人机协作

GLANCE：具有聚类增强功能的图形逻辑注意力网络，用于异构图形表示学习

不断发展的科学考试

Omni-Thinker：通过混合奖励和任务调度在 LLM 中扩展多任务 RL

GRID：可扩展的、与任务无关的、基于提示的语言模型持续学习

学习从人类反馈中总结用户信息，实现个性化强化学习

将语言模型变成分层分类器

Vidar：用于通用操作的具身视频传播模型

BenchRL-QAS：用于量子架构搜索的基准强化学习算法

函数归纳与任务泛化：基于差一加法的可解释性研究

通过随机密钥选择减轻生成模型中的水印伪造

熵-记忆定律：评估法学硕士（LLM）中数据的记忆难度

CoSteer：通过局部增量转向实现协作解码时间个性化

PRIME：具有认知双记忆和个性化思维过程的大型语言模型个性化

模型崩溃不是一个缺陷，而是法学硕士机器学习的一个特性

潜在的思维链？解码深度循环Transformer

互可见性问题的启发式和近似算法的实证分析

学习车辆路径问题的分割

通过求解器-验证器差距对法学硕士自我提升训练动力学进行理论建模

数据一致性通过超越 NTK 机制的融合框架提高训练效率及其他优势

大型语言模型的语义引导多样化解码

雕塑家：通过主动情境管理赋予法学硕士认知能动性

Created by

Haebom

作者

李莫、徐丽华、谭启泰、马龙、曹婷、刘云欣

大纲

大规模语言模型 (LLM) 在处理长上下文时会因先前上下文中不相关信息的干扰而导致性能下降，从而阻碍推理和记忆回忆。与以往侧重于外部记忆系统来提升 LLM 性能的研究不同，本文提出了一种通过提供主动上下文管理 (ACM) 工具来主动塑造 LLM 内部工作记忆的方法。通过名为 Sculptor 的框架，LLM 配备了三类工具：(1) 上下文分割，(2) 总结、隐藏和恢复，以及 (3) 精确检索。这种方法使 LLM 能够主动管理注意力和工作记忆。在各种长期上下文基准测试上的实验评估表明，Sculptor 凭借其独特的工具回忆和指令跟踪能力，无需特殊训练即可显著提升 LLM 性能。此外，为了优化这一策略，我们引入了一种新颖的动态上下文感知强化学习 (RL) 方法，该方法可以提升能够主动修改对话记录的智能体的训练。通过主动上下文管理，Sculptor 不仅可以减轻先发制人的干扰，还能为跨多种长期上下文任务进行更可靠的推理提供认知基础。这凸显了明确的上下文控制策略，而非仅仅扩大令牌窗口，才是实现大规模稳健性的关键。

Takeaways, Limitations

•

Takeaways：

◦

提出了一种解决 LLM 长期上下文处理性能下降问题的新方法。

◦

利用主动上下文管理 (ACM) 工具提高 LLM 的工作内存管理能力。

◦

开发 Sculptor 框架以提高 LLM 性能，而无需特定培训。

◦

利用动态情境感知强化学习 (RL) 进行策略优化。

◦

强调明确的上下文控制策略的重要性。

•

Limitations：

◦

论文中没有提到具体的Limitations。

Made with Slashpage