每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成，并以非盈利为基础运营。
论文版权归作者及相关机构所有，分享时请注明出处。

VarCoNet：一种用于从静息态 fMRI 中提取功能连接组的变异感知自监督框架

KAIROS：通用非自回归时间序列预测的统一训练

SingMOS-Pro：歌唱质量评估的综合基准

打包并强化你的记忆：长篇且一致的视频生成

理解对抗性迁移：为什么表征空间攻击会失败而数据空间攻击却能成功

GPT 与偏见：理解大型语言模型中学习表征的稀疏方法

分析代码语言模型中的潜在概念

少即是多：精简而强大的自动驾驶视觉语言模型

DM-Bench：糖尿病管理个性化决策的 LLM 基准测试

基于YOLO的金属板缺陷检测

Jina-reranker-v3：列表文档重新排序的最后但不晚的交互

SecInfer：通过推理时间缩放防止即时注入

类似普特南数据集摘要：法学硕士作为数学竞赛参赛者

因果适配器：驯服文本到图像的扩散以实现忠实的反事实生成

通过基于稀疏自动编码器的向量细化增强 LLM 控制

对在线排名学习的无观察攻击

MTRec：通过心理奖励模型学习与用户偏好保持一致

MobiLLM：用于 6G Open RAN 中闭环威胁缓解的代理 AI 框架

长助短：监督微调中的上下文长度如何影响大型语言模型的行为

流诱导对角高斯过程

面向尺寸不变的显著物体检测：一种通用评估和优化方法

用于长尾自我中心错误检测的双阶段加权 MoE

使用 YOLOv12 进行稳健的泛癌症有丝分裂图检测

Scam2Prompt：一个可扩展的框架，用于审计生产环境中的恶意诈骗端点

比较出佳：检索增强对比推理用于自动提示优化

STORI：随机环境的基准和分类法

生成人工智能伦理与可信度评估框架研究

接地无根：用于量化多模态法学硕士 (LLM) 中的幻觉的谱图框架

FinAgentBench：金融问答中代理检索的基准数据集

RelayFormer：用于可扩展图像和视频处理定位的统一局部-全局注意力框架

Quantum-RAG 和 PunGPT2：推进旁遮普语的低资源语言生成和检索

通过元提示调整基于 LLM 的代码优化：工业视角

SBP-YOLO：面向智能车辆悬架系统的减速带和坑洼检测轻量级实时模型

空间网络架构

利用大型语言模型克服推荐系统挑战的全面回顾

第一个幻觉标记与条件标记不同

以评分标准作为奖励：超越可验证领域的强化学习

模型并行与子网数据并行

投票：基于轨迹集成投票的视觉-语言-动作优化

双关语生成调查：数据集、评估和方法

采用等变分流匹配的受控发电

CAST：通过抽象语法树的结构化分块增强代码检索增强生成

DiffusionBlocks：通过扩散解释进行分块神经网络训练

SP-VLA：一种用于 VLA 模型加速的联合模型调度和标记剪枝方法

基于 LLM 的恶意软件分析的语义预处理

在固定维度 E(3)-等变潜在空间中操纵 3D 分子

许可的 LLM：在大型语言模型中强制访问控制

用于神经网络认证的有效原像近似

JALMBench：音频语言模型中的越狱漏洞基准测试

NeSyGeo：用于多模态几何推理数据生成的神经符号框架

利用在线数据增强小型波斯语语言模型中的医学知识

利用内部和外部知识预训练有限记忆语言模型

OT 分数：基于 OT 的无源无监督域自适应置信度分数

比较法学硕士和人类的探索-利用策略：来自标准多臂老虎机实验的见解

复杂语音频谱图的深度学习综述

连续思维机器

CostFilter-AD：通过匹配成本过滤增强异常检测

XBreaking：用于越狱的可解释人工智能 LLM

AlignDiT：用于同步语音生成的多模态对齐扩散变换器

PropRAG：通过命题路径上的定向搜索引导检索

激活的 LoRA：针对内在函数进行微调的 LLM

这不是麻烦，而是一种有用的启发：异常维度有利于语言模型中的频繁标记

冗长权衡和规模对 LLM 自我解释忠实度的影响

量化图机器学习中的长程交互：大型图数据集和测量

DatawiseAgent：以笔记本为中心的 LLM 代理框架，用于实现自适应和稳健的数据科学自动化

用于策略梯度估计的多保真度控制变量方法

L1：通过强化学习控制推理模型的思考时间

重新思考概念抹除的脆弱性及新方法

迈向经济推理：在任何基于 Transformer 的 LLM 中启用 DeepSeek 的多头潜在注意力

Primus：网络安全法学硕士 (LLM) 培训的先驱开源数据集集合

MarketSenseAI 2.0：通过 LLM 代理增强股票分析

CBVLM：用于医学图像分类的无需训练、可解释的基于概念的大型视觉语言模型

用于输电网拓扑控制的图神经网络：母线信息不对称与异构表示

使用机器学习推断可插入类型

利用混合遗传算法通过双循环和减少船坞重新装卸来优化集装箱装卸

LLAMAFUZZ：大型语言模型增强型灰盒模糊测试

针对预训练编码器的互信息引导后门缓解

RACCooN：一个多功能的教学视频编辑框架，具有自动生成叙述的功能

统一领域自适应语义分割

人工智能模型是否能够跨模态执行类似人类的抽象推理？

学习以恰到好处的方式做出决策：CMDP 的信息论语境总结

Thinkquel：一个致力于使用合成数据和跨度感知目标的文本到 dbt 模型

OffTopicEval：当大型语言模型进入错误的聊天时，几乎总是如此！

学习在潜在的团队协调世界中互动

从模型缩放角度理解基于语义 ID 的生成式推荐

GUI-PRA：GUI 任务的流程奖励代理

PRIME：整合规划和检索的记忆，增强推理能力

决策树的高效且正确的预测等价性

THOR：通过强化学习实现数学推理的工具集成分层优化

Gala：文本到模型翻译的全球法学硕士代理

解开多重时空转换图表示学习以实现社交增强 POI 推荐

LayerCake：大型语言模型层内的标记感知对比解码

连接伦理原则与算法方法：评估人工智能系统可信度的另一种方法

V2X-UniPool：统一自动驾驶的多模态感知和知识推理

MIRROR：法学硕士对话中个性化安全的模块化内部处理

SelfBudgeter：高效 LLM 推理的自适应令牌分配

将多模态法学硕士 (LLM) 应用于寻求强化学习帮助的具体代理

ViLBias：检测和推理多模式内容中的偏见

OML：在 AI 模型分发中协调开放访问与所有者控制的原语

通过因果解缠改进蒙特卡罗规划，适用于结构分解的马尔可夫决策过程

少即是多：精简而强大的自动驾驶视觉语言模型

Created by

Haebom

作者

杨盛、詹童、陈冠成、路彦峰、王健

Max-V1：基于语言的轨迹预测的端到端自动驾驶

大纲

在本研究中，我们用一种通用语言重新概念化了自动驾驶，并将轨迹规划任务形式化为预测下一个航点。Max-V1 是一种用于单步端到端自动驾驶的新型框架。它提出了一种与驾驶固有顺序性相匹配的单遍生成范式。该方法利用视觉语言模型 (VLM) 的生成能力，能够从前置摄像头输入直接进行端到端轨迹预测。该方法的有效性由源自统计建模的原则性监督策略支撑。这提供了一个明确的学习目标，使其非常适合通过从大规模专家演示中进行模仿学习来掌握复杂的驾驶策略。根据经验，该方法在 nuScenes 数据集上实现了最佳性能，与之前的基线相比总体提升了 30% 以上。此外，它在从各种车辆获取的跨域数据集上展现了卓越的泛化性能，展现了其在跨车辆鲁棒性和适应性方面的巨大潜力。这些实证优势通过引入一个能够实现基本驾驶行为的模型，为开发更强大的自动驾驶代理奠定了基础。代码将随出版物一起提供。

Takeaways, Limitations

•

使用单次生成范式解决自动驾驶问题。

•

我们提出了一个端到端框架，使用 VLM 直接从前向摄像头输入执行轨迹预测。

•

在 NuScenes 数据集上取得了最先进的性能，比现有方法提高了 30% 以上。

•

在跨域数据集上表现出优异的泛化性能，展现了跨车辆的鲁棒性和适应性。

•

为模型开发奠定基础（代码即将发布）。

•

论文中没有具体提及Limitations。

Made with Slashpage