每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成，并以非盈利为基础运营。
论文版权归作者及相关机构所有，分享时请注明出处。

VarCoNet：一种用于从静息态 fMRI 中提取功能连接组的变异感知自监督框架

KAIROS：通用非自回归时间序列预测的统一训练

SingMOS-Pro：歌唱质量评估的综合基准

打包并强化你的记忆：长篇且一致的视频生成

理解对抗性迁移：为什么表征空间攻击会失败而数据空间攻击却能成功

GPT 与偏见：理解大型语言模型中学习表征的稀疏方法

分析代码语言模型中的潜在概念

少即是多：精简而强大的自动驾驶视觉语言模型

DM-Bench：糖尿病管理个性化决策的 LLM 基准测试

基于YOLO的金属板缺陷检测

Jina-reranker-v3：列表文档重新排序的最后但不晚的交互

SecInfer：通过推理时间缩放防止即时注入

类似普特南数据集摘要：法学硕士作为数学竞赛参赛者

因果适配器：驯服文本到图像的扩散以实现忠实的反事实生成

通过基于稀疏自动编码器的向量细化增强 LLM 控制

对在线排名学习的无观察攻击

MTRec：通过心理奖励模型学习与用户偏好保持一致

MobiLLM：用于 6G Open RAN 中闭环威胁缓解的代理 AI 框架

长助短：监督微调中的上下文长度如何影响大型语言模型的行为

流诱导对角高斯过程

面向尺寸不变的显著物体检测：一种通用评估和优化方法

用于长尾自我中心错误检测的双阶段加权 MoE

使用 YOLOv12 进行稳健的泛癌症有丝分裂图检测

Scam2Prompt：一个可扩展的框架，用于审计生产环境中的恶意诈骗端点

比较出佳：检索增强对比推理用于自动提示优化

STORI：随机环境的基准和分类法

生成人工智能伦理与可信度评估框架研究

接地无根：用于量化多模态法学硕士 (LLM) 中的幻觉的谱图框架

FinAgentBench：金融问答中代理检索的基准数据集

RelayFormer：用于可扩展图像和视频处理定位的统一局部-全局注意力框架

Quantum-RAG 和 PunGPT2：推进旁遮普语的低资源语言生成和检索

通过元提示调整基于 LLM 的代码优化：工业视角

SBP-YOLO：面向智能车辆悬架系统的减速带和坑洼检测轻量级实时模型

空间网络架构

利用大型语言模型克服推荐系统挑战的全面回顾

第一个幻觉标记与条件标记不同

以评分标准作为奖励：超越可验证领域的强化学习

模型并行与子网数据并行

投票：基于轨迹集成投票的视觉-语言-动作优化

双关语生成调查：数据集、评估和方法

采用等变分流匹配的受控发电

CAST：通过抽象语法树的结构化分块增强代码检索增强生成

DiffusionBlocks：通过扩散解释进行分块神经网络训练

SP-VLA：一种用于 VLA 模型加速的联合模型调度和标记剪枝方法

基于 LLM 的恶意软件分析的语义预处理

在固定维度 E(3)-等变潜在空间中操纵 3D 分子

许可的 LLM：在大型语言模型中强制访问控制

用于神经网络认证的有效原像近似

JALMBench：音频语言模型中的越狱漏洞基准测试

NeSyGeo：用于多模态几何推理数据生成的神经符号框架

利用在线数据增强小型波斯语语言模型中的医学知识

利用内部和外部知识预训练有限记忆语言模型

OT 分数：基于 OT 的无源无监督域自适应置信度分数

比较法学硕士和人类的探索-利用策略：来自标准多臂老虎机实验的见解

复杂语音频谱图的深度学习综述

连续思维机器

CostFilter-AD：通过匹配成本过滤增强异常检测

XBreaking：用于越狱的可解释人工智能 LLM

AlignDiT：用于同步语音生成的多模态对齐扩散变换器

PropRAG：通过命题路径上的定向搜索引导检索

激活的 LoRA：针对内在函数进行微调的 LLM

这不是麻烦，而是一种有用的启发：异常维度有利于语言模型中的频繁标记

冗长权衡和规模对 LLM 自我解释忠实度的影响

量化图机器学习中的长程交互：大型图数据集和测量

DatawiseAgent：以笔记本为中心的 LLM 代理框架，用于实现自适应和稳健的数据科学自动化

用于策略梯度估计的多保真度控制变量方法

L1：通过强化学习控制推理模型的思考时间

重新思考概念抹除的脆弱性及新方法

迈向经济推理：在任何基于 Transformer 的 LLM 中启用 DeepSeek 的多头潜在注意力

Primus：网络安全法学硕士 (LLM) 培训的先驱开源数据集集合

MarketSenseAI 2.0：通过 LLM 代理增强股票分析

CBVLM：用于医学图像分类的无需训练、可解释的基于概念的大型视觉语言模型

用于输电网拓扑控制的图神经网络：母线信息不对称与异构表示

使用机器学习推断可插入类型

利用混合遗传算法通过双循环和减少船坞重新装卸来优化集装箱装卸

LLAMAFUZZ：大型语言模型增强型灰盒模糊测试

针对预训练编码器的互信息引导后门缓解

RACCooN：一个多功能的教学视频编辑框架，具有自动生成叙述的功能

统一领域自适应语义分割

人工智能模型是否能够跨模态执行类似人类的抽象推理？

学习以恰到好处的方式做出决策：CMDP 的信息论语境总结

Thinkquel：一个致力于使用合成数据和跨度感知目标的文本到 dbt 模型

OffTopicEval：当大型语言模型进入错误的聊天时，几乎总是如此！

学习在潜在的团队协调世界中互动

从模型缩放角度理解基于语义 ID 的生成式推荐

GUI-PRA：GUI 任务的流程奖励代理

PRIME：整合规划和检索的记忆，增强推理能力

决策树的高效且正确的预测等价性

THOR：通过强化学习实现数学推理的工具集成分层优化

Gala：文本到模型翻译的全球法学硕士代理

解开多重时空转换图表示学习以实现社交增强 POI 推荐

LayerCake：大型语言模型层内的标记感知对比解码

连接伦理原则与算法方法：评估人工智能系统可信度的另一种方法

V2X-UniPool：统一自动驾驶的多模态感知和知识推理

MIRROR：法学硕士对话中个性化安全的模块化内部处理

SelfBudgeter：高效 LLM 推理的自适应令牌分配

将多模态法学硕士 (LLM) 应用于寻求强化学习帮助的具体代理

ViLBias：检测和推理多模式内容中的偏见

OML：在 AI 模型分发中协调开放访问与所有者控制的原语

通过因果解缠改进蒙特卡罗规划，适用于结构分解的马尔可夫决策过程

THOR：通过强化学习实现数学推理的工具集成分层优化

Created by

Haebom

作者

常启凯、张振荣、胡鹏飞、杜军、马杰峰、潘一成、张建树、刘泉、高建清

大纲

尽管大规模语言模型 (LLM) 在数学推理方面取得了显著进展，但它们在数值计算和形式符号处理等高精度任务中仍面临挑战。集成外部工具已成为弥补这一差距的一种有效方法。现有方法面临三大挑战：构建工具集成推理数据、执行微调优化以及改进推理。为了克服这些限制，我们提出了基于强化学习的工具集成分层优化 (THOR)。首先，我们使用 TIRGen 构建高质量的工具集成推理路径数据集，并在不同模型之间对齐和推广策略。其次，我们引入一种强化学习策略，该策略联合优化情节级问题求解和逐步代码生成，以执行微调分层优化。这基于一个核心洞察：中间工具调用的成功是最终解决方案准确性的有力预测指标。最后，THOR 集成了自我修正机制，利用即时工具反馈在推理过程中动态纠正错误的推理路径。THOR 在各种模型中展现出强大的泛化能力，并且在推理和非推理模型上均能有效运行。此外，它在多个数学基准测试中，在类似规模的模型上实现了最佳性能，并在代码基准测试中持续提升性能。

Takeaways，Limitations

•

THOR 解决了三个关键挑战：工具集成推理、微调优化和推理改进。

•

使用 TIRGen 构建高质量的工具集成推理数据集。

•

我们使用 RL 策略执行情节和步骤级别的优化。

•

通过自我纠正机制动态纠正推理错误。

•

它在各种模型中表现出强大的泛化性能。

•

在数学和代码基准测试中实现 SOTA 性能。

•

代码即将发布（ https://github.com/JingMog/THOR ）。

GitHub - JingMog/THOR: Official Implementation of our paper "THOR: Tool-Integrated Hierarchical Optimization via RL for Mathematical Reasoning".

Official Implementation of our paper "THOR: Tool-Integrated Hierarchical Optimization via RL for Mathematical Reasoning". - JingMog/THOR

•

论文中没有具体说明Limitations。（但是提到了现有方法的Limitations。）

Made with Slashpage