/
/
每日 Arxiv
每日 Arxiv
本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。
RLVR 的优化动力学:梯度间隙和步长阈值
时间序列基础模型的合成序列符号数据生成
学习神经暴露场以实现视图合成
更少的权重,更多的问题:对 LLM 剪枝的实用攻击
人类团队的经验可以应用于多智能体系统吗?结构、多样性和交互动力学的作用
Haystack Engineering:用于异构和代理长上下文评估的上下文工程
GyroSwin:用于回旋运动等离子体湍流模拟的 5D 替代模型
通过成对比较获取在线评分标准
面向法学硕士 (LLM) 中负责任 AI 的可扩展多语言 PII 注释
解开混合线性注意力转换方法中的成分不平衡
Reinforce-Ada:用于强化式 LLM 训练的自适应采样框架
揭示疾病之间的相互联系:从统计方法到大型语言模型
P2P:法学硕士课程中可靠后门防御的毒药补救措施
MLLMEraser:通过激活引导在多模态大型语言模型中实现测试时反学习
低精度 Transformer 训练为何失败:Flash Attention 分析
时空预测作为规划:基于模型的生成世界模型强化学习方法
面向实时信息物理系统的6G数字孪生框架:工业轴承故障检测的实验验证
InstructPLM-mu:ESM2 的 1 小时微调在蛋白质突变预测中胜过 ESM3
低延迟 LLM 服务的提示感知调度
从不精确监督中学习稳健的扩散模型
CLARITY:临床助理,负责路由、推理和分类
Nav-EE:自动驾驶中高效视觉语言模型的导航引导提前退出
机器学习用于检测和分析新型 LLM 越狱
言语采样:如何缓解模式崩溃并释放法学硕士的多样性
TimeScope:面向任务的长视频时间基础
可编辑噪声图反演:将目标图像编码为噪声以实现高保真图像处理
ClustRecNet:一种用于聚类算法推荐的新型端到端深度学习框架
信赖域奖励优化和近端逆奖励优化算法
InfiR2:推理增强语言模型的综合 FP8 训练方案
医学视觉语言模型中的基准测试和缓解谄媚
CFDLLMBench:用于评估计算流体动力学中大型语言模型的基准套件
数字孪生的大型研究揭示了其优势、劣势和进一步改进的机会
字节跳动强大的法学硕士培训基础设施
RPG:用于统一和可扩展代码库生成的存储库规划图
MOCHA:多模态对象感知跨弧结构对齐
超越“对不起,我不能”:剖析大型语言模型的拒绝
个人生活满意度效用表明,不平等厌恶与政治立场无关
COMPACT:跨通道和令牌的通用令牌优化模型修剪
从联邦学习到X-学习:通过随机游走打破去中心化障碍
基于期望最大化的多智能体强化学习中的潜在变量建模,用于无人机野生动物保护
量化大型语言模型自我评估和交叉评估中的标签诱导偏差
资源受限设备上稀疏激活大型语言模型的联合微调
关于任务向量和梯度
当在线策略强化学习遇见离线策略专家:通过动态加权协调监督微调和强化学习
LATTE:为银行客户学习对齐交易和文本嵌入
ACD-CLIP:零样本异常检测的解耦表示和动态融合
用于空间波束 RSRP 预测的神经波束场
AMFT:通过元学习最佳模仿-探索平衡来调整 LLM 推理器
通过探索进行推理:用于稳健函数调用的强化学习框架
VAGPO:针对图形路由问题的视觉增强非对称群体偏好优化
TriP-LLM:用于时间序列异常检测的三分支块状大型语言模型框架
让自我改进的代理能够在测试时通过人机交互指导进行学习
预印本:海报:我刚刚浏览了一个由法学硕士编写的网站吗?
采用渐进层冻结的部位级微调:从第 1 天胸部 X 光片对极早产儿支气管肺发育不良进行稳健预测
AirScape:具有运动可控性的空中生成世界模型
无需偷看即可进行调整:LLM 后训练的可证明隐私和泛化界限
EFRame:通过探索-过滤-重放强化学习框架进行更深层次的推理
Mem4Nav:利用分层空间认知长短记忆系统提升城市环境中的视觉和语言导航
超越代币量化法学硕士课程中的公平性:语义和统计视角
基于视频的帕金森病手指敲击测试运动特征的可解释和精细量化
用于图形生成的 Bures-Wasserstein 流匹配
神经网络参数空间的对称性
CausalVLBench:大型视觉语言模型中的视觉因果推理基准测试
动态奉承:视频法学硕士中的谄媚行为的基准测试和分析
AD-EE:自动驾驶中快速可靠的视觉语言模型的早期退出
两个领域的稳健性:CLIP 需要稳健的文本编码器
引出和增强:推进医疗场景中的多模态推理
Any-to-Bokeh:利用视频扩散模型对任意主体视频进行重新聚焦
一个 LLM-as-Judge 指标,用于弥补 SE 任务中与人工评估的差距
FinTagging:用于提取和构建财务信息的基准法学硕士
超越演示:从潜在表征构建动态向量
DDO:基于 LLM 的医疗咨询的多智能体协作双决策优化
连续 POMDP 中的策略优化的序贯蒙特卡罗方法
信任游戏:你的区块链认为你有多值得信赖?
协作无标记数据优化
推理大型语言模型错误源于对关键问题特征的错觉
利用元学习进行系统提示优化
认知涌现:人机知识共创中的能动性、维度和动态
多模态语言模型在浅显易懂时效果更佳
使用 LLM 探索人与 SAV 的交互:心理因素对用户体验的影响
开发者对人工智能生成代码的自我声明:实践分析
具有连续标记的扩散生成推荐
TARO:用于同步视频到音频合成的时间步长自适应表示对齐与起始感知条件
DeepOHeat-v1:高效的算子学习,用于 3D-IC 设计中快速可靠的热仿真和优化
Brain2Text解码模型揭示视觉语义处理的神经机制
通过 LLM 驱动的迭代代码图搜索进行问题定位
CCDP:具有引导采样的条件扩散策略的组合
使用可预测性测量图像标题中的方向性偏差放大
对比学习增强社交推荐
WyckoffDiff——晶体对称性的生成扩散模型
利用解耦扩散序贯蒙特卡罗方法求解线性高斯贝叶斯逆问题
RadVLM:一种用于放射学的多任务会话视觉语言模型
IG-MCTS:不完全信息下的人机协同导航
OrcaLoca:用于软件问题本地化的 LLM 代理框架
在基于树的遗传编程中实现种群级并行以实现 GPU 加速
AD-LLM:用于异常检测的大型语言模型基准测试
使用 LLM 增强生成检索进行偏好辨别
SwarmGPT:将大型语言模型与无人机群体编排的安全运动规划相结合
生成任意场景:场景图驱动的数据合成,用于视觉生成训练
Medchain:通过交互式序列弥合法学硕士 (LLM) 代理与临床实践之间的差距
Load more
Reinforce-Ada:用于强化式 LLM 训练的自适应采样框架
Created by
Haebom
作者
熊伟、叶晨露、廖宝浩、董汉泽、徐新兴、Christof Monz、边江、蒋楠、张桐
Reinforce-Ada:用于大型语言模型强化学习的自适应采样
大纲
本文介绍了 Reinforce-Ada 框架,该框架旨在解决强化学习 (RL) 应用中大规模语言模型 (LLM) 推理任务中固定、均匀的提示响应采样所导致的梯度估计不稳定问题。Reinforce-Ada 是一个用于在线强化学习后训练的自适应采样框架,它不断地将采样工作重新分配给具有高不确定性或高学习潜力的提示。它以在线、连续淘汰的方式将估计和采样连接起来,一旦收集到足够的信号,就会自动停止对给定提示的采样。它通过形成固定大小的组来增强奖励多样性,并利用在自适应采样阶段汇总的全局统计数据。
Takeaways, Limitations
•
Takeaways:
◦
与 GRPO 相比,Reinforce-Ada 加快了收敛速度并提高了最终性能。
◦
当使用平衡采样变量时,性能的提升尤为明显。
◦
它强调了考虑到波动性的自适应数据管理的重要性。
•
Limitations:
◦
摘要中没有明确提及具体的 Limitations。
查看 PDF
Made with Slashpage