/
/
每日 Arxiv
每日 Arxiv
本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。
桥接 Kolmogorov 复杂度与深度学习:Transformer 的渐近最优描述长度目标
谱崩溃导致深度持续学习中可塑性的丧失
MimicDreamer:协调人类和机器人演示,实现可扩展的 VLA 训练
R-Capsule:压缩高级计划以实现高效的大型语言模型推理
DiTraj:视频扩散变换器的免训练轨迹控制
Agribot:农业专用问答系统
$\Mathbf{Li_2}$:特征涌现和延迟泛化的动态框架
双头推理提炼:通过训练时间推理提高分类器准确率
稀疏子网络是否表现出认知一致的注意力?剪枝对显著图保真度、稀疏性和概念一致性的影响
面向零样本时间序列异常检测的基础模型:利用合成数据和相对上下文差异
精度越低,可靠性越高吗?量化对CLIP影响的系统评估(超越精度)
SiNGER:更清晰的声音进一步提炼视觉变形金刚
I-LAVA:面向座席的低延迟语音对语音架构洞察
在 HPC 中心部署容器化 GenAI 服务的经验
EmbeddingGemma:强大而轻量级的文本表示
超越尖锐极小值:通过反馈引导的多点优化实现稳健的 LLM 反学习
通过增强生成的强化学习为大型语言模型嵌入领域知识
负责任的人工智能技术报告
基于扩散的阻抗学习,用于接触丰富的操作任务
多样性促进人工智能生成的文本检测
SPiDR:模拟到现实迁移中零样本安全的简单方法
四月:强化学习中的主动部分推广,以驯服长尾生成
通过持续指令调整实现自我进化的法学硕士
组合结构的强化生成:复杂性理论的应用
联合内存频率和计算频率缩放以实现节能的 DNN 推理
StefaLand:一种高效的地球科学基础模型,可改进动态地表预测
核心空间中准确高效的低秩模型合并
开源从创始人领导到社区治理的转变模式
通过离线奖励评估和策略搜索增强生成式自动竞价
通过卷积解码和拒绝微调实现快速流畅的扩散语言模型
WorldForge:通过免训练指导解锁视频传播模型中的新兴 3D/4D 生成
TreeIRL:通过树搜索和逆向强化学习实现安全的城市驾驶
生成人工智能时代的本科数学考试评估:课程层面的案例研究
学习路由:用于多模态多任务预测的每样本自适应路由
MindVL:在 Ascend NPU 上高效且有效地训练多模态大型语言模型
FuseCodec:神经编解码器的语义上下文融合与监督
TalkPlayData 2:用于多模式对话音乐推荐的代理合成数据管道
通过双通道谱编码和潜在空间通信进行图形对齐
进化优化大型语言模型的系统综述:从建模到求解
DEPFusion:用于无人机多光谱物体检测的双域增强和优先级引导 Mamba 融合
COMPACT:跨通道和令牌的通用令牌优化模型修剪
BranchGRPO:扩散模型中具有结构化分支的稳定高效的 GRPO
预测的物理基础:通过法学硕士课程在神经类器官中形成世界模型
扩散生成模型与压缩感知相结合,应用于成像和金融
共同进化的复杂性:自动 MARL 课程的对抗框架
从杂货到日用百货:使用 LLM 和实时购物车上下文的交叉推荐系统
法学硕士(LLM)是否遵循标签定义?考察他们对外部标签定义的接受能力
GradES:基于梯度的早期停止方法显著加快 Transformer 的训练速度
通用全模型能与专家模型竞争吗?医学图像分割案例研究
用于知识密集型视觉问答的多模态迭代 RAG
TReF-6:从单次演示中推断任务相关框架以实现一次性技能泛化
评估 Wav2Vec 2.0、XLS-R 和 Whisper 中的 Transformer 层在说话人识别任务中的有效性
以推理成本进行端到端设备上的 LLM 量化感知训练
使用生成大型语言模型(LLM)自动生成问答
CORE-RAG:通过强化学习实现检索增强型 LLM 的无损压缩
对于 DPO 来说数据什么最重要?
类型兼容的级联适配:使程序化的语言模型工作流适应数据
推测安全感知解码
Jet-Nemotron:具有后神经架构搜索的高效语言模型
从粗到精的个性化 LLM 印象,打造精简的放射学报告
ECHO:可变长度信号的频率感知分层编码
你只需要硬示例:在注释预算下最大化 GRPO 后训练
RLVR 中的深度-广度协同:通过自适应探索释放 LLM 推理优势
时间推理的对比表征
用于图像伪造识别的语义差异感知检测器
G-CUT3R:基于相机和深度先验集成的引导式三维重建
BLADE:块稀疏注意力与分步蒸馏相结合,实现高效视频生成
PakBBQ:一种适应文化的 QA 偏见基准
MoQE:通过混合量化专家提高量化模型性能
精明的导师还是泛泛而谈的导师?评估苏格拉底式法学硕士的教学指导能力
超越提示诱导的谎言:调查法学硕士(LLM)学生在良性提示下的欺骗行为
AttriLens-Mol:基于属性引导的强化学习,利用大型语言模型进行分子特性预测
雕塑家:通过主动情境管理赋予法学硕士认知能动性
CTTS:集体测试时间缩放
皮质计算的几何:VCNet 中的流形解缠和预测动力学
沟通计划,而非感知:具有具体世界模型的可扩展多智能体协调
语言模型可以发现缩放规律吗?
当工程超越智能:重新思考指令引导导航
用于语言建模的马尔可夫分类框架
走出去:基于物理基础的人机协作
GLANCE:具有聚类增强功能的图形逻辑注意力网络,用于异构图形表示学习
不断发展的科学考试
Omni-Thinker:通过混合奖励和任务调度在 LLM 中扩展多任务 RL
GRID:可扩展的、与任务无关的、基于提示的语言模型持续学习
学习从人类反馈中总结用户信息,实现个性化强化学习
将语言模型变成分层分类器
Vidar:用于通用操作的具身视频传播模型
BenchRL-QAS:用于量子架构搜索的基准强化学习算法
函数归纳与任务泛化:基于差一加法的可解释性研究
通过随机密钥选择减轻生成模型中的水印伪造
熵-记忆定律:评估法学硕士(LLM)中数据的记忆难度
CoSteer:通过局部增量转向实现协作解码时间个性化
PRIME:具有认知双记忆和个性化思维过程的大型语言模型个性化
模型崩溃不是一个缺陷,而是法学硕士机器学习的一个特性
潜在的思维链?解码深度循环Transformer
互可见性问题的启发式和近似算法的实证分析
学习车辆路径问题的分割
通过求解器-验证器差距对法学硕士自我提升训练动力学进行理论建模
数据一致性通过超越 NTK 机制的融合框架提高训练效率及其他优势
大型语言模型的语义引导多样化解码
Load more
DEPFusion:用于无人机多光谱物体检测的双域增强和优先级引导 Mamba 融合
Created by
Haebom
作者
李树丛、刘振宇、洪子杰、周志恒、曹向海
大纲
为了应对无人机 (UAV) 多光谱目标检测的挑战,我们提出了 DEPFusion 框架,该框架包含双域增强 (DDE) 和优先级引导 Mamba 融合 (PGMF) 模块。DDE 解决了低光 RGB 图像造成的细节损失,而 PGMF 则减少了干扰信息,从而改进了局部目标建模。DDE 模块利用了跨尺度小波 Mamba (CSWM) 模块和傅里叶细节恢复 (FDR) 模块,PGMF 模块则利用了基于优先级的序列化,我们在 DroneVehicle 和 VEDAI 数据集上实现了最佳性能。
Takeaways,Limitations
•
Takeaways:
◦
为解决无人机多光谱目标检测问题做出贡献
◦
改善低光环境下的性能
◦
提高局部目标建模的准确性
◦
确保计算成本效率(与基于 Transformer 的方法相比)
•
Limitations:
◦
论文中没有指定Limitations
查看 PDF
Made with Slashpage