/
/
每日 Arxiv
每日 Arxiv
本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。
桥接 Kolmogorov 复杂度与深度学习:Transformer 的渐近最优描述长度目标
谱崩溃导致深度持续学习中可塑性的丧失
MimicDreamer:协调人类和机器人演示,实现可扩展的 VLA 训练
R-Capsule:压缩高级计划以实现高效的大型语言模型推理
DiTraj:视频扩散变换器的免训练轨迹控制
Agribot:农业专用问答系统
$\Mathbf{Li_2}$:特征涌现和延迟泛化的动态框架
双头推理提炼:通过训练时间推理提高分类器准确率
稀疏子网络是否表现出认知一致的注意力?剪枝对显著图保真度、稀疏性和概念一致性的影响
面向零样本时间序列异常检测的基础模型:利用合成数据和相对上下文差异
精度越低,可靠性越高吗?量化对CLIP影响的系统评估(超越精度)
SiNGER:更清晰的声音进一步提炼视觉变形金刚
I-LAVA:面向座席的低延迟语音对语音架构洞察
在 HPC 中心部署容器化 GenAI 服务的经验
EmbeddingGemma:强大而轻量级的文本表示
超越尖锐极小值:通过反馈引导的多点优化实现稳健的 LLM 反学习
通过增强生成的强化学习为大型语言模型嵌入领域知识
负责任的人工智能技术报告
基于扩散的阻抗学习,用于接触丰富的操作任务
多样性促进人工智能生成的文本检测
SPiDR:模拟到现实迁移中零样本安全的简单方法
四月:强化学习中的主动部分推广,以驯服长尾生成
通过持续指令调整实现自我进化的法学硕士
组合结构的强化生成:复杂性理论的应用
联合内存频率和计算频率缩放以实现节能的 DNN 推理
StefaLand:一种高效的地球科学基础模型,可改进动态地表预测
核心空间中准确高效的低秩模型合并
开源从创始人领导到社区治理的转变模式
通过离线奖励评估和策略搜索增强生成式自动竞价
通过卷积解码和拒绝微调实现快速流畅的扩散语言模型
WorldForge:通过免训练指导解锁视频传播模型中的新兴 3D/4D 生成
TreeIRL:通过树搜索和逆向强化学习实现安全的城市驾驶
生成人工智能时代的本科数学考试评估:课程层面的案例研究
学习路由:用于多模态多任务预测的每样本自适应路由
MindVL:在 Ascend NPU 上高效且有效地训练多模态大型语言模型
FuseCodec:神经编解码器的语义上下文融合与监督
TalkPlayData 2:用于多模式对话音乐推荐的代理合成数据管道
通过双通道谱编码和潜在空间通信进行图形对齐
进化优化大型语言模型的系统综述:从建模到求解
DEPFusion:用于无人机多光谱物体检测的双域增强和优先级引导 Mamba 融合
COMPACT:跨通道和令牌的通用令牌优化模型修剪
BranchGRPO:扩散模型中具有结构化分支的稳定高效的 GRPO
预测的物理基础:通过法学硕士课程在神经类器官中形成世界模型
扩散生成模型与压缩感知相结合,应用于成像和金融
共同进化的复杂性:自动 MARL 课程的对抗框架
从杂货到日用百货:使用 LLM 和实时购物车上下文的交叉推荐系统
法学硕士(LLM)是否遵循标签定义?考察他们对外部标签定义的接受能力
GradES:基于梯度的早期停止方法显著加快 Transformer 的训练速度
通用全模型能与专家模型竞争吗?医学图像分割案例研究
用于知识密集型视觉问答的多模态迭代 RAG
TReF-6:从单次演示中推断任务相关框架以实现一次性技能泛化
评估 Wav2Vec 2.0、XLS-R 和 Whisper 中的 Transformer 层在说话人识别任务中的有效性
以推理成本进行端到端设备上的 LLM 量化感知训练
使用生成大型语言模型(LLM)自动生成问答
CORE-RAG:通过强化学习实现检索增强型 LLM 的无损压缩
对于 DPO 来说数据什么最重要?
类型兼容的级联适配:使程序化的语言模型工作流适应数据
推测安全感知解码
Jet-Nemotron:具有后神经架构搜索的高效语言模型
从粗到精的个性化 LLM 印象,打造精简的放射学报告
ECHO:可变长度信号的频率感知分层编码
你只需要硬示例:在注释预算下最大化 GRPO 后训练
RLVR 中的深度-广度协同:通过自适应探索释放 LLM 推理优势
时间推理的对比表征
用于图像伪造识别的语义差异感知检测器
G-CUT3R:基于相机和深度先验集成的引导式三维重建
BLADE:块稀疏注意力与分步蒸馏相结合,实现高效视频生成
PakBBQ:一种适应文化的 QA 偏见基准
MoQE:通过混合量化专家提高量化模型性能
精明的导师还是泛泛而谈的导师?评估苏格拉底式法学硕士的教学指导能力
超越提示诱导的谎言:调查法学硕士(LLM)学生在良性提示下的欺骗行为
AttriLens-Mol:基于属性引导的强化学习,利用大型语言模型进行分子特性预测
雕塑家:通过主动情境管理赋予法学硕士认知能动性
CTTS:集体测试时间缩放
皮质计算的几何:VCNet 中的流形解缠和预测动力学
沟通计划,而非感知:具有具体世界模型的可扩展多智能体协调
语言模型可以发现缩放规律吗?
当工程超越智能:重新思考指令引导导航
用于语言建模的马尔可夫分类框架
走出去:基于物理基础的人机协作
GLANCE:具有聚类增强功能的图形逻辑注意力网络,用于异构图形表示学习
不断发展的科学考试
Omni-Thinker:通过混合奖励和任务调度在 LLM 中扩展多任务 RL
GRID:可扩展的、与任务无关的、基于提示的语言模型持续学习
学习从人类反馈中总结用户信息,实现个性化强化学习
将语言模型变成分层分类器
Vidar:用于通用操作的具身视频传播模型
BenchRL-QAS:用于量子架构搜索的基准强化学习算法
函数归纳与任务泛化:基于差一加法的可解释性研究
通过随机密钥选择减轻生成模型中的水印伪造
熵-记忆定律:评估法学硕士(LLM)中数据的记忆难度
CoSteer:通过局部增量转向实现协作解码时间个性化
PRIME:具有认知双记忆和个性化思维过程的大型语言模型个性化
模型崩溃不是一个缺陷,而是法学硕士机器学习的一个特性
潜在的思维链?解码深度循环Transformer
互可见性问题的启发式和近似算法的实证分析
学习车辆路径问题的分割
通过求解器-验证器差距对法学硕士自我提升训练动力学进行理论建模
数据一致性通过超越 NTK 机制的融合框架提高训练效率及其他优势
大型语言模型的语义引导多样化解码
Load more
对于 DPO 来说数据什么最重要?
Created by
Haebom
作者
潘宇、蔡中泽、陈冠廷、钟淮阳、王崇焕
大纲
直接偏好优化 (DPO) 是一种简单有效的方法,无需学习奖励模型即可将大规模语言模型 (LLM) 与人类偏好对齐。本研究系统地研究了对 DPO 性能最重要的偏好数据特征。我们证明,所选答案的质量在优化 DPO 目标函数中起着至关重要的作用,而被拒绝的答案的质量可能影响相对有限。在线 DPO 配置的所选答案行为类似于监督学习,并且在各种任务中进行的实验表明,提高所选答案的质量可以持续提升性能。
Takeaways, Limitations
•
从偏好数据中选择的响应的质量对 DPO 性能有最显著的影响。
•
被拒绝的回复的质量对 DPO 性能的影响相对较小。
•
在线 DPO 类似于针对选择性响应的监督学习。
•
提高所选响应的质量可以持续提高各种任务的性能。
•
我们研究了混合策略数据的好处。
•
我们通过大量实验验证了我们的建议。
•
(论文中未指定Limitations)
查看 PDF
Made with Slashpage