每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成，并以非盈利为基础运营。
论文版权归作者及相关机构所有，分享时请注明出处。

利用门控残差标记实现密集视频理解

机器比人类更有效率，直到它们不再如此，反之亦然

BWCache：通过块级缓存加速视频扩散变换器

探索阿拉伯方言识别的数据和参数有效策略

使用大型语言模型模拟人类数据的分析灵活性威胁：需要引起注意

生成人工智能时代的本科数学考试评估：课程层面的案例研究

安全运营中心基于图形的警报情境化方法

FunAudio-ASR技术报告

Omni-CLST：用于音频问答的错误感知课程学习，采用引导式选择性思维链

代码语义有用吗？基于执行轨迹的代码大型语言模型信息综合研究

医疗保健的多元化协调：角色驱动的框架

ALIGNS：通过大型语言模型解锁心理测量中的法则网络

大型推理模型的强化学习综述

基于骨架的双流时空动态图卷积网络手语识别

重建对齐改进统一多模态模型

基于矩和功率谱的文本到图像模型高斯正则化

FASL-Seg：手术场景的解剖和工具分割

医疗制造的双模式深度异常检测：结构相似性和特征距离

利用基于 LLM 的代理系统中的工具行为劫持工具调用提示

测量指标：跨模型系列的表征相似性指标的判别能力

AR-KAN：用于时间序列预测的自回归权重增强型 Kolmogorov-Arnold 网络

MIDOG 2025 轨道 2 的病理学基础模型集合：非典型有丝分裂分类

深度学习驱动的烹饪物体多模态检测和运动分析

Middo：通过闭环学习增强 LLM 微调的模型信息动态数据优化

MovieCORE：电影中的认知推理

ASE：用于评估 AI 生成代码安全性的存储库级基准

广义不变量与本构神经网络的结合：超弹性材料的新框架

用于可解释分类的神经逻辑网络

转动你的眼睛：通过明确的 3D 眼球旋转实现视线重定向

可控表面扩散神经发育轨迹生成模型

决定如何应对：指导决策者应对人工智能系统的审议框架

SCORPION：解决扫描仪引起的组织病理学变异

ThinkAct：通过强化视觉潜在规划进行视觉-语言-动作推理

SPICE：用于问题清晰度、测试覆盖率和工作量估算的自动化 SWE-Bench 标记管道

FreeAudio：无需训练的时间规划，实现可控的长篇文本转音频生成

EnCoBo：可解释生成的能量引导概念瓶颈

T-SYNTH：基于知识的合成乳房图像数据集

MedVAL：利用语言模型实现专家级医学文本验证

无约束人脸识别系统后门攻击的生存能力

“医生，您好吗？”：分析用户如何在大规模对话式 AI 数据集中寻找健康信息

面向实际应用的工程 RAG 系统：设计、开发和评估

车载网络切片中动态资源管理的可解释人工智能框架

DiCoRe：通过发散-收敛法学硕士推理增强零样本事件检测

利用全景激光雷达-摄像机融合的地面机器人进行复杂环境的语义探索和密集地图绘制

评估用于欺诈检测的监督学习模型：对不平衡交易数据的经典和深度架构的比较研究

二值化神经网络向算法简单性收敛：学习即压缩假设的实证支持

PMPO：小型和大型语言模型的概率度量提示优化

DisastIR：灾害管理综合信息检索基准

基于结构的异常检测的偏好隔离森林

无需信任的自治：理解自主主权去中心化人工智能代理的动机、利益和治理困境

GRADA：基于图的重排序对抗对抗性文档攻击

模块化机器学习：迈向新一代大型语言模型的必由之路

基于直接视频的时空深度学习用于牛跛足检测

先读后想：循序渐进地阅读，缓解法学硕士（LLM）理解障碍

人机交互强化学习中的零样本 LLM：用奖励塑造取代人类反馈

通过任务并行性预测多智能体专业化

利用基于图的知识微调视觉语言模型，实现可解释的医学图像分析

VLM-E2E：通过多模式驾驶员注意力融合增强端到端自动驾驶

METAL：具有测试时间缩放功能的图表生成多智能体框架

SNaRe：用于低资源事件检测的领域感知数据生成

叠加特定任务特征以进行模型合并

在数学推理的推理尺度下检验假阳性

SWAT：用于逐步领域适应的滑动窗口对抗训练

用于求解复杂积分方程的具有残差的高级物理信息神经网络

检索-逆向：基于检索的无机逆向合成与专家知识

解锁法律知识：瑞士司法摘要的多语言数据集

通过大型语言模型重建差异隐私文本清理

3DS：通过分解难度数据选择实现 LLM 医学领域适应

图拓扑在生物医学知识图谱完成模型性能中的作用

针对异构图节点分类的 Top K 增强强化学习攻击

边学边忘：生成语言模型的迭代忘却学习框架

EXPLOR：基于分布不确定性的拒绝的外推伪标签匹配

利用图网络进行时空异常检测，用于强子量能器数据质量监测

基于规则的错误检测和纠正，以实现运动轨迹分类

基于抽象语法树（AST）的异构定向超图神经网络用于代码分类

说“也许”的艺术：用于 VLM 中不确定性基准测试的共形镜头

人类+人工智能加速广告本地化评估

生成人工智能中的统计方法

InMind：评估法学硕士在捕捉和应用个体人类推理风格方面的能力

DSperse：零知识机器学习中的目标验证框架

DualSG：双流显式语义引导的多变量时间序列预测框架

众人评判：更多视角是否意味着更少偏见？基于多智能体法学硕士法官课程的偏见放大与抵制

通过分层协同自我游戏强化学习掌握多无人机排球

将 AutomationML 文件自动映射到本体，以进行图形查询和验证

用于高保真 RIR 生成的显式上下文驱动神经声学建模

FlowRL：匹配 LLM 推理的奖励分布

Orion：模糊测试工作流自动化

TITAN：一种用于大规模VQE中自适应参数冻结的轨迹信息技术

通过卷积解码和拒绝微调实现快速流畅的扩散语言模型

SMARTER：一个通过自增强大型语言模型改进毒性检测和解释的数据高效框架

LORA RF 指纹识别机器学习模型中的水印和异常检测

基于二维自然图像预训练模型的半监督三维医学分割

利用几何视觉错觉作为视觉模型的感知归纳偏差

探索音频效果如何利用基础模型改变情绪

WorldForge：通过免训练指导解锁视频传播模型中的新兴 3D/4D 生成

通过多级项目建设的精益形式化来说明科学的机械化

大规模多智能体强化学习中的脆弱智能体识别

TextMine：法学硕士驱动的人道主义排雷行动知识提取

聆听、想象与精炼：基于 LLM 的启发式优化 ASR 校正框架

基于注意力机制的双重压缩，实现 ViT 的高效通信分割学习

ASE：用于评估 AI 生成代码安全性的存储库级基准

Created by

Haebom

作者

连可可、王斌、张雷、陈立波、王俊杰、赵子明、杨玉九、林妙倩、段浩桐、赵浩然、廖爽、郭明达、全嘉正、钟一录、何陈浩、陈紫川、吴杰、李浩灵、李兆轩、于炯池、李慧、张东

大纲

本文强调，由于大规模语言模型 (LLM) 在软件工程中的应用日益广泛，对生成代码进行严格的安全评估的需求日益增长。现有的基准测试与现实世界的人工智能辅助编程场景缺乏关联，不足以评估人工智能生成代码在实际操作环境中可能带来的实际安全风险。为了解决这个问题，本文提出了人工智能代码生成安全评估 (ASE)，这是一个存储库级的评估基准，旨在准确反映现实世界的人工智能编程任务。ASE 提供了一个全面可靠的框架来评估人工智能生成代码的安全性。ASE 对领先 LLM 的评估结果表明，当前的 LLM 仍然难以实现安全编码。存储库级场景的复杂性给 LLM 带来了挑战，而 LLM 通常在代码片段级任务上表现良好。此外，更大的推理预算并不一定能带来更好的代码生成效果。这些观察结果为人工智能代码生成的现状提供了宝贵的见解，并帮助开发人员确定最适合实际任务的模型。它们也为改进 LLM 以在实际应用中生成安全高效的代码奠定了基础。

Takeaways，Limitations

•

Takeaways：提出了一个新的基准 ASE，用于评估现实世界中 AI 辅助编程场景的安全性。它揭示了当前 LLM 安全代码生成功能的局限性。它分析了存储库级操作复杂性对 LLM 性能的影响。它证实了推理预算与代码生成质量之间缺乏相关性。它提出了改进 LLM 以适应现实世界应用的方法。

•

Limitations：需要进一步研究以确定 ASE 基准的通用性。需要进一步分析 LLM 针对各种安全漏洞的脆弱性。还需要对更广泛的 LLM 模型进行评估。

Made with Slashpage