每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成，并以非盈利为基础运营。
论文版权归作者及相关机构所有，分享时请注明出处。

大型语言模型在国际天文学和天体物理学奥林匹克竞赛（IOAA）上获得金牌

AWARE，超越句子界限：用于识别 STEM 叙事中文化资本的语境转换框架

MuFFIN：具有交互式分层神经建模的多面发音反馈模型

AtomWorld：评估晶体材料大型语言模型空间推理的基准

LaDiR：潜在扩散增强 LLM 的文本推理能力

接种提示：在训练期间从 LLM 中引出特征可以在测试时抑制它们

大型语言模型中的认知多样性和知识崩溃

在基于 ReLU 的 RNN 中检测不变流形

Neon：通过自我训练进行负面推断，改善图像生成

PLSemanticsBench：大型语言模型作为编程语言解释器

2025 年下一代科学计算生态系统研讨会报告：利用社区、软件和人工智能实现跨学科团队科学

蒸馏蛋白质骨架生成

RainSeer：通过物理引导建模进行细粒度降雨重建

深度学习方法与可解释人工智能用于区分阿尔茨海默病和轻度认知障碍

通过基于深度学习的音乐变奏支持创意所有权

通过开源语言模型生成用于代码编辑的高质量数据集

通过脉冲神经网络梯度稀疏轨迹实现准确度与稳健性的权衡

通过偏好实现自适应边际 RLHF

ImageNet 训练的 CNN 不偏向纹理：通过控制抑制重新审视特征依赖

一组通用组件，通过协作样本选择和触发器实现有效的仅限毒药的清洁标签后门攻击

散射变压器：一种用于心脏杂音检测的免训练变压器架构

LLM-JEPA：大型语言模型与联合嵌入预测架构的结合

TreeIRL：通过树搜索和逆向强化学习实现安全的城市驾驶

OpenFake：面向现实世界 Deepfake 检测的开放数据集和平台

MetaLLMix：一种基于 XAI 辅助 LLM-元学习的超参数优化方法

基于语音的认知筛查：法学硕士适应策略的系统评估

解读欧盟人工智能法案：基于深度学习的三类医疗器械自动化检测资格认证中可预见的挑战

人工智能应用的可接受性与不可接受性？一个预测性道德框架

人工智能伴侣的情感操纵

语言模型的生成接口

数据和上下文至关重要：迈向基于人工智能的软件漏洞检测的普及

Pref-GUIDE：通过基于偏好的学习，从实时人类反馈中进行持续策略学习

无需专家精选数据集的法学硕士 (LLM) 反学习

RooseBERT：政治语言建模的新政

CAPO：通过生成学分分配提升法学硕士推理能力

RoboMemory：一种受大脑启发的多记忆代理框架，用于物理体现系统中的交互式环境学习

SBP-YOLO：面向智能车辆悬架系统的减速带和坑洼检测轻量级实时模型

面向模式选择行为的本地可部署微调因果大型语言模型

FedFlex：用于多样化 Netflix 推荐的联合学习

我们能在模型完成思考之前预测对齐情况吗？迈向监控错位推理模型

视频大型多模态模型能否像怀疑者一样思考——或者双倍下注：一项关于可废止视频蕴涵的研究

人物角色特征控制突发错位

提炼设备上的语言模型，以最少的人工干预进行机器人规划

学习最小作用距离

复合人工智能系统优化：方法、挑战和未来方向的综述

利用可重构智能表面的 B5G 物理层安全公平感知策略

恶意人工智能群体如何威胁民主：代理人工智能与法学硕士的融合标志着信息战的新前沿

以对象为中心的概念瓶颈

诊断和解决 KG-RAG 数据集中的缺陷：迈向更可靠的基准测试

OWL：通过世界文学探索记忆文本的跨语言回忆

从准确性到稳健性：数学推理中基于规则和模型的验证器研究

针对 LLM 废除攻击的令人尴尬的简单防御

最优策略最小贝叶斯风险

ChartCards：用于多任务图表理解的图表元数据生成框架

幻觉还是算法？探究情境学习中的记忆、涌现和符号加工

通过综合语义洞察训练来提升文本到图表的检索能力

城市空气质量管理的深度强化学习：大都市环境中污染缓解亭位置的多目标优化

我们可以在分布检测中忽略标签吗？

QLLM：在多智能体强化学习中，我们真的需要一个混合网络来进行信用分配吗？

通过 RST 增强图融合和可解释性预测实现跨文档跨语言 NLI

性能提升的幻象：对比解码为何无法减轻 MLLM 中的物体幻觉？

MigGPT：利用大型语言模型实现跨版本的 Linux 内核补丁自动迁移

MedHal：医学幻觉检测评估数据集

AutoPDL：LLM 代理的自动提示优化

用于紧急沟通和协调的去中心化集体世界模型

模型上下文协议（MCP）：现状、安全威胁和未来研究方向

用于高效测试时间推理的熵门控分支

构建资源受限的语言代理：韩国化学毒性信息案例研究

贝叶斯教学使大型语言模型中的概率推理成为可能

基于图形的可解释全幻灯片图像分析框架

脑图像对齐的最佳传输：揭示神经信息处理中的冗余和协同作用

IMPACT：通过视觉语言模型实现可接受接触轨迹的智能运动规划

WildIFEval：野外指令跟踪

通过曲率和局部本征维度进行几何引导的对抗性提示检测

标记代码而不破坏代码：用于检测 LLM 生成代码的代码水印

使用红旗代币的 LLM 危害缓解生成方法

PartSDF：基于部件的隐式神经表征，用于复合 3D 形状参数化和优化

宝石：多面缩放定律的模型套件

HOG-Diff：用于图生成的高阶引导扩散

QAPyramid：文本摘要内容选择的细粒度评估

BenchAgents：用于结构化基准创建的多智能体系统

PACER：基于物理信息和不确定性感知的气候模拟器

BanglaLlama：孟加拉语的 LLaMA

本地 LLM 部署的中间路径：在不牺牲模型机密性的前提下保护隐私

医学图像分析中 Mamba 架构的全面概述：分类、分割、恢复及其他

结合亲和力预测：从传统方法到基于机器学习的方法

可解释聚类：一项调查

因果探究干预措施的可靠性如何？

SKADA-Bench：对无监督领域自适应方法进行基准测试，并在多种模式下进行实际验证

大型语言模型对文本扰动的鲁棒性

探索对话式人工智能对基于代理的社会模拟模型设计的潜力

结合 Mamba 进行语音增强的调查

用于软件测试自动化中上下文感知视觉变化检测的人工智能

一种用于多尺度时间表征学习的可学习提示的信用预测生成方法

LLM 原生方法中用于软件验证和证伪的生成转换和模式

从画笔到像素：人工智能生成艺术中的深度神经网络综述

通过约束强化学习和零知识审计实现安全合规的跨市场交易执行

开放代理规范（Agent Spec）技术报告

利用法学硕士 (LLM) 进行基于网络的智能教育系统中的抗噪认知诊断

BrowserArena：评估 LLM 代理在现实世界 Web 导航任务中的表现

我们能在模型完成思考之前预测对齐情况吗？迈向监控错位推理模型

Created by

Haebom

作者

易少陈、杨正新、史蒂芬·H·巴赫

大纲

本研究探讨了长思维链 (CoT) 的担忧，推理语言模型用它来提升复杂任务的性能，但在对抗环境中，CoT 可能会增加有害的输出。本研究探讨了这些长思维链是否可以用于预测性安全监控，即推理过程是否能提供最终响应对齐的早期信号，从而实现适当的干预。研究人员使用 CoT 文本或激活函数，评估了各种监控方法，包括高性能大规模语言模型、微调分类器和人工干预。具体而言，他们发现，在 CoT 激活函数上训练的简单线性探针在预测安全/不安全的最终响应方面显著优于基于文本的基线模型，F1 分数平均绝对提升 13 个百分点。他们证实，模型潜变量比基于文本的 CoT 提供了更可靠的预测信号。此外，他们还证明了这些探针可以在响应生成之前应用于早期的 CoT 片段，从而允许对齐信号在推理完成之前出现。误差分析表明，文本分类器和线性探针之间的性能差距主要出现在一组响应中，称为“执行性CoT”，其中随着CoT的进展，推理始终与最终响应相矛盾。这些发现适用于各种模型大小、类型和安全基准，表明轻量级探针可以在生成过程中实现实时安全监控和早期干预。

Takeaways，Limitations

•

Takeaways：

◦

基于 CoT 激活的线性探测在预测安全/不安全响应方面优于基于文本的方法。

◦

对齐信号在响应产生之前及早出现，可能提供实时监控和干预的可能性。

◦

该模型的潜在变量比基于文本的 CoT 提供更可靠的预测信号。

◦

轻量级探测器可以实现实时安全监控和早期干预。

•

Limitations：

◦

对于某些类型的响应（例如“表演性 CoT”），基于文本的方法和线性探测之间的性能存在差异。

◦

进一步验证研究的普遍性可能需要对其他模型、基准和背景进行广泛的评估。

◦

实际部署中可能存在复杂性和潜在限制，这可能会影响部署探测器时的性能。

Made with Slashpage