/
/
每日 Arxiv
每日 Arxiv
本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。
通过脉冲神经网络梯度稀疏轨迹实现准确度与稳健性的权衡
通过偏好实现自适应边际 RLHF
ImageNet 训练的 CNN 不偏向纹理:通过控制抑制重新审视特征依赖
一组通用组件,通过协作样本选择和触发器实现有效的仅限毒药的清洁标签后门攻击
散射变压器:一种用于心脏杂音检测的免训练变压器架构
LLM-JEPA:大型语言模型与联合嵌入预测架构的结合
TreeIRL:通过树搜索和逆向强化学习实现安全的城市驾驶
OpenFake:面向现实世界 Deepfake 检测的开放数据集和平台
MetaLLMix:一种基于 XAI 辅助 LLM-元学习的超参数优化方法
基于语音的认知筛查:法学硕士适应策略的系统评估
解读欧盟人工智能法案:基于深度学习的三类医疗器械自动化检测资格认证中可预见的挑战
人工智能应用的可接受性与不可接受性?一个预测性道德框架
人工智能伴侣的情感操纵
语言模型的生成接口
数据和上下文至关重要:迈向基于人工智能的软件漏洞检测的普及
Pref-GUIDE:通过基于偏好的学习,从实时人类反馈中进行持续策略学习
无需专家精选数据集的法学硕士 (LLM) 反学习
RooseBERT:政治语言建模的新政
CAPO:通过生成学分分配提升法学硕士推理能力
RoboMemory:一种受大脑启发的多记忆代理框架,用于物理体现系统中的交互式环境学习
SBP-YOLO:面向智能车辆悬架系统的减速带和坑洼检测轻量级实时模型
面向模式选择行为的本地可部署微调因果大型语言模型
FedFlex:用于多样化 Netflix 推荐的联合学习
我们能在模型完成思考之前预测对齐情况吗?迈向监控错位推理模型
视频大型多模态模型能否像怀疑者一样思考——或者双倍下注:一项关于可废止视频蕴涵的研究
人物角色特征控制突发错位
提炼设备上的语言模型,以最少的人工干预进行机器人规划
学习最小作用距离
复合人工智能系统优化:方法、挑战和未来方向的综述
利用可重构智能表面的 B5G 物理层安全公平感知策略
恶意人工智能群体如何威胁民主:代理人工智能与法学硕士的融合标志着信息战的新前沿
以对象为中心的概念瓶颈
诊断和解决 KG-RAG 数据集中的缺陷:迈向更可靠的基准测试
OWL:通过世界文学探索记忆文本的跨语言回忆
从准确性到稳健性:数学推理中基于规则和模型的验证器研究
针对 LLM 废除攻击的令人尴尬的简单防御
最优策略最小贝叶斯风险
ChartCards:用于多任务图表理解的图表元数据生成框架
幻觉还是算法?探究情境学习中的记忆、涌现和符号加工
通过综合语义洞察训练来提升文本到图表的检索能力
城市空气质量管理的深度强化学习:大都市环境中污染缓解亭位置的多目标优化
我们可以在分布检测中忽略标签吗?
QLLM:在多智能体强化学习中,我们真的需要一个混合网络来进行信用分配吗?
通过 RST 增强图融合和可解释性预测实现跨文档跨语言 NLI
性能提升的幻象:对比解码为何无法减轻 MLLM 中的物体幻觉?
MigGPT:利用大型语言模型实现跨版本的 Linux 内核补丁自动迁移
MedHal:医学幻觉检测评估数据集
AutoPDL:LLM 代理的自动提示优化
用于紧急沟通和协调的去中心化集体世界模型
模型上下文协议(MCP):现状、安全威胁和未来研究方向
用于高效测试时间推理的熵门控分支
构建资源受限的语言代理:韩国化学毒性信息案例研究
贝叶斯教学使大型语言模型中的概率推理成为可能
基于图形的可解释全幻灯片图像分析框架
脑图像对齐的最佳传输:揭示神经信息处理中的冗余和协同作用
IMPACT:通过视觉语言模型实现可接受接触轨迹的智能运动规划
WildIFEval:野外指令跟踪
通过曲率和局部本征维度进行几何引导的对抗性提示检测
标记代码而不破坏代码:用于检测 LLM 生成代码的代码水印
使用红旗代币的 LLM 危害缓解生成方法
PartSDF:基于部件的隐式神经表征,用于复合 3D 形状参数化和优化
宝石:多面缩放定律的模型套件
HOG-Diff:用于图生成的高阶引导扩散
QAPyramid:文本摘要内容选择的细粒度评估
BenchAgents:用于结构化基准创建的多智能体系统
PACER:基于物理信息和不确定性感知的气候模拟器
BanglaLlama:孟加拉语的 LLaMA
本地 LLM 部署的中间路径:在不牺牲模型机密性的前提下保护隐私
医学图像分析中 Mamba 架构的全面概述:分类、分割、恢复及其他
结合亲和力预测:从传统方法到基于机器学习的方法
可解释聚类:一项调查
因果探究干预措施的可靠性如何?
SKADA-Bench:对无监督领域自适应方法进行基准测试,并在多种模式下进行实际验证
大型语言模型对文本扰动的鲁棒性
探索对话式人工智能对基于代理的社会模拟模型设计的潜力
结合 Mamba 进行语音增强的调查
用于软件测试自动化中上下文感知视觉变化检测的人工智能
一种用于多尺度时间表征学习的可学习提示的信用预测生成方法
LLM 原生方法中用于软件验证和证伪的生成转换和模式
从画笔到像素:人工智能生成艺术中的深度神经网络综述
通过约束强化学习和零知识审计实现安全合规的跨市场交易执行
开放代理规范(Agent Spec)技术报告
利用法学硕士 (LLM) 进行基于网络的智能教育系统中的抗噪认知诊断
BrowserArena:评估 LLM 代理在现实世界 Web 导航任务中的表现
人工智能模型是否能够跨模态执行类似人类的抽象推理?
思考还是作弊?通过测量推理努力来检测隐性奖励黑客行为
分层推理模型:观点与误解
训练视觉语言过程奖励模型用于多模态推理中的测试时间缩放:关键见解和经验教训
法学硕士的风险分析与调节
结构化稀疏转移矩阵实现状态空间模型中的状态跟踪
RepIt:表示孤立目标来引导语言模型
人类+人工智能加速广告本地化评估
MAPGD:用于协作提示优化的多智能体提示梯度下降
ForTIFAI:避免递归训练导致的 AI 模型故障
GRAFT:文本对齐的图形和表格推理——结构化教学跟踪和视觉推理的基准
基于 MIP 构造和多邻域局部搜索的触发弧 TSP 快速 GRASP 元启发式算法
辨别重要之事:法学硕士道德能力的多维度评估
VisioMath:LMM 中基于图形的数学推理基准测试
FLEx:通过专家嫁接实现混合专家法学硕士的个性化联邦学习
SciSciGPT:推进科学领域的人机协作
Load more
InfoMosaic-Bench:评估工具增强代理中的多源信息搜索
Created by
Haebom
作者
杜亚欣、张元硕、杨曦源、周一凡、王成、邹公仪、庞祥和、王文浩、陈梦兰、唐硕、李志宇、熊飞宇、陈思恒
大纲
本文重点介绍了 LLM 代理在信息搜索方面的局限性,并介绍了 InfoMosaic-Bench——一个旨在评估其将专用工具与通用搜索功能集成能力的新基准测试。该基准测试涉及的任务需要将通用搜索与跨领域的特定领域工具相结合,实验表明 LLM 代理在这种集成方面存在困难。
Takeaways, Limitations
•
Takeaways:
◦
仅有网络信息是不够的;利用特定领域的工具至关重要。
◦
领域工具提供了可选的好处,但缺乏一致性。
◦
LLM 代理在使用和选择工具方面遇到困难。
•
Limitations:
◦
当前 LLM 代理缺乏工具使用技能。
◦
集成工具和处理复杂信息任务的困难。
查看 PDF
Made with Slashpage