每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成，并以非盈利为基础运营。
论文版权归作者及相关机构所有，分享时请注明出处。

MOIS-SAM2：基于样本的“任何分割模型 2”，用于全身 MRI 中神经纤维瘤的多病变交互式分割

软指标，硬事实

Citrus-V：基于统一医学图像基础的先进医学基础模型，助力临床推理

长助短：监督微调中的上下文长度如何影响大型语言模型的行为

COLT：通过持续使用工具增强视频大型语言模型

视觉运动政策中需要本体感受状态吗？

CPCLDETECTOR：用于检测中文居高临下语言的知识增强和对齐选择

通过持续指令调整实现自我进化的法学硕士

Safe-SAIL：通过稀疏自动编码器解释框架实现大型语言模型的细粒度安全格局

法学硕士能否以无需训练的方式推理非文本模态？基于上下文表征学习的案例研究

通过残差量化为预排序赋予目标注意力

语音法学硕士 (LLM) 中的语境推理和副语言推理基准测试：基于自然数据的案例研究

开源从创始人领导到社区治理的转变模式

合成引导预训练

PromptSculptor：基于多代理的文本到图像提示优化

代码语义有用吗？基于执行轨迹的代码大型语言模型信息综合研究

UI-S1：通过半在线强化学习推进 GUI 自动化

结构很重要：通过可学习的边缘掩蔽增强脑图，实现数据高效的精神病诊断

超越服务前视野：融入服务中行为以改善财务风险预测

HumAine-Chatbot：通过强化学习实现实时个性化对话式人工智能

EAI-Avatar：情绪感知交互式说话头像生成

SciRerankBench：面向科学检索的基准重排序器——增强生成的 LLM

人工智能公司是否兑现了对白宫的自愿承诺？

在音频代码生成中嵌入对齐

Kron-LoRA：用于可扩展、可持续微调的混合 Kronecker-LoRA 适配器

从查询到逻辑：法学硕士 (LLM) 中的本体驱动多跳推理

测量计算机使用代理的危害性

利用自适应上下文压缩提高 RAG 效率

CANDLE：用于可解释的肌肉减少症诊断的跨模态代理知识提炼框架

Assay2Mol：基于大型语言模型、使用 BioAssay 上下文的药物设计

动态参数记忆：用于对话中长序列情绪识别的临时 LoRA 增强型 LLM

White-Basilisk：一种用于代码漏洞检测的混合模型

可再生能源共置人工智能数据中心的能源管理

VisualTrap：通过操纵视觉接地对 GUI 代理进行隐秘后门攻击

LoSiA：通过子网定位和优化实现高效的高秩微调

结构搜索：组合优化的无监督置换学习

HAZEMATCHING：利用引导条件流匹配对光学显微镜图像进行去雾

超越简单图：多重图上的神经多目标路由

面向实际应用的工程 RAG 系统：设计、开发和评估

CUPID：利用影响力函数整理机器人喜爱的数据

量子-经典混合量化神经网络

SurgVidLM：利用大型语言模型实现多粒度手术视频理解

为什么某些输入会破坏低位 LLM 量化？

用于皮肤癌分类的不确定性感知深度学习四步法

CellCLIP——通过文本引导的对比学习来学习细胞绘画中的扰动效应

Urania：对人工智能使用的差异化隐私洞察

RadialRouter：高效、稳健的大型语言模型路由的结构化表示

OmniSpatial：面向视觉语言模型的综合空间推理基准

局部化 LoRA：用于高效微调的结构化低秩近似

PathGene：使用多中心肺癌组织病理学图像数据集对驱动基因突变和外显子预测进行基准测试

信任还是不信任你的视觉语言模型的预测

SEM：增强空间理解，实现稳健的机器人操作

日期碎片：时间推理标记化的隐藏瓶颈

DISCO 平衡尺度：针对不平衡数据的自适应领域和难度感知强化学习

从不一致到一致：利用多路并行语料库扩展多语言法学硕士

重新审视残差连接：稳定高效的深度网络的正交更新

逐步引导策略优化：在 GRPO 中为错误推理着色

GSPRec：用于推荐的时间感知图谱过滤

EDBench：用于分子建模的大规模电子密度数据

小型还是大型？零样本还是微调？医疗保健专业应用的指导语言模型选择

LEMUR 神经网络数据集：迈向无缝 AutoML

面向多模态大型语言模型的视觉文本基础

非线性音频效应的无监督估计：基于扩散的方法和对抗方法的比较

DP-LET：一种高效的时空网络流量预测框架

具有动态奖励缩放的逆向强化学习，用于 LLM 对齐

自我中心愿景的挑战与趋势：一项调查

使用大型语言模型统一时间文本属性图的文本语义和图形结构

语言模型无法反思其语言知识

通过模仿周围车辆学习驾驶

基于通用 SMARTS 模板和数据增强的 Transformer 模型预测化学产品

复杂动力系统中的异常检测：使用嵌入理论和物理启发一致性的系统框架

通过全面的答案弥合信息差距：提高后续问题的多样性和信息量

HawkBench：研究 RAG 方法在分层信息搜索任务中的弹性

SoFar：基于语言的方向连接空间推理和对象操作

通过梯度下降进行紧凑的基于规则的分类器学习

BAP v2：Minecraft 对话中指令遵循的增强任务框架

表征收敛：相互提炼其实是一种正则化形式

盲人摸象：基准数据集中性别刻板印象的不同视角

Stylus：重新利用稳定扩散实现梅尔谱图上的无训练音乐风格迁移

扩散课程：通过图像引导扩散实现从合成到真实的生成课程学习

VLM 看，机器人做：通过视觉语言模型将人类演示视频转化为机器人行动计划

用于生成医疗记录的 GEN AI 框架

使用 ASCII 艺术逃避毒性检测：对审核系统进行空间攻击的基准

用于自动化医疗文档的大型语言模型的有效微调

任意精度和稀疏度的神经网络稳健训练

时空知识整合：大气时间序列预报的轻量级方法

DeNOTS：时间序列的稳定深度神经微分方程

TALEC：通过标准划分和零样本加少量样本，教授你的法学硕士在特定领域使用内部标准进行评估

RealitySummary：使用大型语言模型探索按需混合现实文本摘要和问答

CLIP 可以理解深度

CueGCL：面向无监督图对比学习的集群感知个性化自训练

在标签稀缺的情况下，预训练深度模型在学习排序方面的表现优于 GBDT

外部时间过程下的马尔可夫决策过程

MAPO：混合优势策略优化

相似场论：智能的通用数学框架

CogAtom：从认知原子到大型语言模型中的奥林匹克级数学推理

基于 LLM 的具身任务完成代理的计划验证

GRAFT：文本对齐的图形和表格推理——结构化教学跟踪和视觉推理的基准

医学环境下高效多模态法学硕士 (LLM) 的压缩策略

资源约束下理性主体的突发风险意识

长助短：监督微调中的上下文长度如何影响大型语言模型的行为

Created by

Haebom

作者

郑英明、李涵琪、余凯、陈璐

大纲

本文研究了大规模语言模型 (LLM)。由于越来越多的实际应用需要长上下文窗口，使用长上下文数据进行连续预训练和监督微调 (SFT) 已成为常用方法。虽然先前的研究已经广泛调查了数据长度对连续预训练的影响，但其对 SFT 的影响仍不清楚。本研究系统地研究了 SFT 数据长度对 LLM 在短上下文任务中性能的影响。与直觉相反，我们发现长上下文 SFT 可以提高短上下文性能。这一发现与通常使用长上下文预训练时观察到的性能下降相反。为了阐明这一现象的潜在机制，我们解构了两个关键组件：多头注意力 (MHA) 和前馈网络 (FFN)，证明这两个组件都独立地受益于长上下文 SFT。此外，我们研究了它们之间的相互作用，揭示了一种知识偏好偏差：长语境SFT偏向于语境知识，而短语境SFT偏向于参数知识。因此，单纯依赖长语境SFT并非最佳方案。最后，我们表明混合训练可以缓解这些偏差，为LLM的微调提供可解释的指导。

Takeaways, Limitations

•

Takeaways：

◦

我们发现长上下文 SFT 提高了 LLM 在短上下文任务上的表现，这一发现与之前的研究相矛盾。

◦

MHA 和 FFN 都独立受益于长上下文 SFT。

◦

长语境 SFT 揭示了有利于语境知识的知识偏好偏差，而短语境 SFT 揭示了有利于参数知识的知识偏好偏差。

◦

通过混合训练减轻知识偏好偏差，并为微调 LLM 提供可解释的指导。

•

Limitations：

◦

本研究可能仅限于特定类型的法学硕士（LLM）和数据集。未来需要对更广泛的法学硕士（LLM）和数据集进行进一步研究。

◦

混合训练的最佳策略仍需进一步研究，缺乏对混合比例等具体参数调整的深入分析。

◦

需要对知识偏好偏差的原因进行更深入的机制分析。

Made with Slashpage