Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

On the optimization dynamics of RLVR: Gradient gap and step size thresholds

Synthetic Series-Symbol Data Generation for Time Series Foundation Models

Learning Neural Exposure Fields for View Synthesis

Fewer Weights, More Problems: A Practical Attack on LLM Pruning

Can Lessons From Human Teams Be Applied to Multi-Agent Systems? The Role of Structure, Diversity, and Interaction Dynamics

Haystack Engineering: Context Engineering for Heterogeneous and Agentic Long-Context Evaluation

GyroSwin: 5D Surrogates for Gyrokinetic Plasma Turbulence Simulations

Online Rubrics Elicitation from Pairwise Comparisons

Scalable multilingual PII annotation for responsible AI in LLMs

Untangling Component Imbalance in Hybrid Linear Attention Conversion Methods

Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training

Revealing Interconnections between Diseases: from Statistical Methods to Large Language Models

P2P: A Poison-to-Poison Remedy for Reliable Backdoor Defense in LLMs

MLLMEraser: Achieving Test-Time Unlearning in Multimodal Large Language Models through Activation Steering

Why Low-Precision Transformer Training Fails: An Analysis on Flash Attention

Spatiotemporal Forecasting as Planning: A Model-Based Reinforcement Learning Approach with Generative World Models

6G-Enabled Digital Twin Framework for Real-Time Cyber-Physical Systems: An Experimental Validation with Industrial Bearing Fault Detection

InstructPLM-mu: 1-Hour Fine-Tuning of ESM2 Beats ESM3 in Protein Mutation Predictions

Prompt-Aware Scheduling for Low-Latency LLM Serving

Learning Robust Diffusion Models from Imprecise Supervision

CLARITY: Clinical Assistant for Routing, Inference, and Triage

Nav-EE: Navigation-Guided Early Exiting for Efficient Vision-Language Models in Autonomous Driving

Machine Learning for Detection and Analysis of Novel LLM Jailbreaks

Verbalized Sampling: How to Mitigate Mode Collapse and Unlock LLM Diversity

TimeScope: Towards Task-Oriented Temporal Grounding In Long Videos

Editable Noise Map Inversion: Encoding Target-image into Noise For High-Fidelity Image Manipulation

ClustRecNet: A Novel End-to-End Deep Learning Framework for Clustering Algorithm Recommendation

Trust Region Reward Optimization and Proximal Inverse Reward Optimization Algorithm

InfiR2: A Comprehensive FP8 Training Recipe for Reasoning-Enhanced Language Models

Benchmarking and Mitigate Sycophancy in Medical Vision-Language Models

CFDLLMBench: A Benchmark Suite for Evaluating Large Language Models in Computational Fluid Dynamics

A Mega-Study of Digital Twins Reveals Strengths, Weaknesses and Opportunities for Further Improvement

Robust LLM Training Infrastructure at ByteDance

RPG: A Repository Planning Graph for Unified and Scalable Codebase Generation

MOCHA: Multi-modal Objects-aware Cross-arcHitecture Alignment

Beyond I'm Sorry, I Can't: Dissecting Large Language Model Refusal

Individual utilities of life satisfaction reveal inequality aversion unrelated to political alignment

COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens

From Federated Learning to X-Learning: Breaking the Barriers of Decentrality Through Random Walks

Latent Variable Modeling in Multi-Agent Reinforcement Learning via Expectation-Maximization for UAV-Based Wildlife Protection

Quantifying Label-Induced Bias in Large Language Model Self- and Cross-Evaluations

Federated Fine-Tuning of Sparsely-Activated Large Language Models on Resource-Constrained Devices

On Task Vectors and Gradients

On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting

LATTE: Learning Aligned Transactions and Textual Embeddings for Bank Clients

ACD-CLIP: Decoupling Representation and Dynamic Fusion for Zero-Shot Anomaly Detection

Neural Beam Field for Spatial Beam RSRP Prediction

AMFT: Aligning LLM Reasoners by Meta-Learning the Optimal Imitation-Exploration Balance

Reasoning through Exploration: A Reinforcement Learning Framework for Robust Function Calling

VAGPO: Vision-augmented Asymmetric Group Preference Optimization for Graph Routing Problems

TriP-LLM: A Tri-Branch Patch-wise Large Language Model Framework for Time-Series Anomaly Detection

Enabling Self-Improving Agents to Learn at Test Time With Human-In-The-Loop Guidance

Preprint: Poster: Did I Just Browse A Website Written by LLMs?

Site-Level Fine-Tuning with Progressive Layer Freezing: Towards Robust Prediction of Bronchopulmonary Dysplasia from Day-1 Chest Radiographs in Extremely Preterm Infants

AirScape: An Aerial Generative World Model with Motion Controllability

Tuning without Peeking: Provable Privacy and Generalization Bounds for LLM Post-Training

EFRame: Deeper Reasoning via Exploration-Filter-Replay Reinforcement Learning Framework

Mem4Nav: Boosting Vision-and-Language Navigation in Urban Environments with a Hierarchical Spatial-Cognition Long-Short Memory System

Quantifying Fairness in LLMs Beyond Tokens: A Semantic and Statistical Perspective

Interpretable and Granular Video-Based Quantification of Motor Characteristics from the Finger Tapping Test in Parkinson Disease

Bures-Wasserstein Flow Matching for Graph Generation

Symmetry in Neural Network Parameter Spaces

CausalVLBench: Benchmarking Visual Causal Reasoning in Large Vision-Language Models

Flattery in Motion: Benchmarking and Analyzing Sycophancy in Video-LLMs

AD-EE: Early Exiting for Fast and Reliable Vision-Language Models in Autonomous Driving

Robustness in Both Domains: CLIP Needs a Robust Text Encoder

Elicit and Enhance: Advancing Multimodal Reasoning in Medical Scenarios

Any-to-Bokeh: Arbitrary-Subject Video Refocusing with Video Diffusion Model

An LLM-as-Judge Metric for Bridging the Gap with Human Evaluation in SE Tasks

FinTagging: Benchmarking LLMs for Extracting and Structuring Financial Information

Beyond Demonstrations: Dynamic Vector Construction from Latent Representations

DDO: Dual-Decision Optimization for LLM-Based Medical Consultation via Multi-Agent Collaboration

Sequential Monte Carlo for Policy Optimization in Continuous POMDPs

Game of Trust: How Trustworthy Does Your Blockchain Think You Are?

Collaborative Unlabeled Data Optimization

Reasoning Large Language Model Errors Arise from Hallucinating Critical Problem Features

System Prompt Optimization with Meta-Learning

Cognitio Emergens: Agency, Dimensions, and Dynamics in Human-AI Knowledge Co-Creation

Multimodal Language Models See Better When They Look Shallower

Exploring human-SAV interaction using LLMs: The impact of psychological factors on user experience

On Developers' Self-Declaration of AI-Generated Code: An Analysis of Practices

Diffusion Generative Recommendation with Continuous Tokens

TARO: Timestep-Adaptive Representation Alignment with Onset-Aware Conditioning for Synchronized Video-to-Audio Synthesis

DeepOHeat-v1: Efficient Operator Learning for Fast and Trustworthy Thermal Simulation and Optimization in 3D-IC Design

Brain2Text Decoding Model Reveals the Neural Mechanisms of Visual Semantic Processing

Issue Localization via LLM-Driven Iterative Code Graph Searching

CCDP: Composition of Conditional Diffusion Policies with Guided Sampling

Measuring directional bias amplification in image captions using predictability

Contrastive Learning Augmented Social Recommendations

WyckoffDiff -- A Generative Diffusion Model for Crystal Symmetry

Solving Linear-Gaussian Bayesian Inverse Problems with Decoupled Diffusion Sequential Monte Carlo

RadVLM: A Multitask Conversational Vision-Language Model for Radiology

IG-MCTS: Human-in-the-Loop Cooperative Navigation under Incomplete Information

OrcaLoca: An LLM Agent Framework for Software Issue Localization

Enabling Population-Level Parallelism in Tree-Based Genetic Programming for GPU Acceleration

AD-LLM: Benchmarking Large Language Models for Anomaly Detection

Preference Discerning with LLM-Enhanced Generative Retrieval

SwarmGPT: Combining Large Language Models with Safe Motion Planning for Drone Swarm Choreography

Generate Any Scene: Scene Graph Driven Data Synthesis for Visual Generation Training

Medchain: Bridging the Gap Between LLM Agents and Clinical Practice with Interactive Sequence

Untangling Component Imbalance in Hybrid Linear Attention Conversion Methods

Created by

Haebom

저자

Martin Benfeghoul, Teresa Delgado, Adnan Oomerjee, Haitham Bou Ammar, Jun Wang, Zafeirios Fountas

개요

Transformer의 2차 계산 복잡성은 뛰어난 성능에도 불구하고 확장성을 제한한다. 선형 어텐션은 이 문제를 선형 복잡성으로 줄이지만, 처음부터 이러한 모델을 사전 훈련하는 것은 대부분의 경우 비용이 많이 든다. 최근의 사후 훈련 선형화 방법은 사전 훈련된 Transformer를 선형 모델로 효율적으로 변환하며, 종종 슬라이딩 윈도우 소프트맥스와 선형 어텐션을 결합하는 하이브리드 방식을 사용한다. 본 연구는 기존 하이브리드 방식이 의도치 않게 선형 구성 요소를 우회하고 SWA에 거의 전적으로 의존하는 치명적인 결함을 발견했다. 구성 요소 수준의 진단을 통해 이러한 이전에는 감지되지 않았던 동작이 일반적인 상식 벤치마크에 대한 간과된 평가 관행에서 비롯됨을 밝혀냈다. 본 연구는 균형 잡힌 구성 요소 사용을 보장하기 위해 (i) 슬라이딩 윈도우 소프트맥스를 사용한 선형 전용 변환의 추론 시간 하이브리드화, (ii) 어텐션 가중치 전송과 대상 LoRA 미세 조정을 결합한 HedgeCATs, (iii) 구성 요소 붕괴를 방지하기 위해 훈련 중 소프트맥스 브랜치를 확률적으로 억제하는 Scheduled Sliding-window Dropout (SSD)의 세 가지 해결책을 제안한다. 제안된 방법은 계산 효율성을 유지하면서 대부분의 기본 모델 성능을 회복하고 진정한 선형 어텐션 채택을 보장하여 하이브리드 변환에서 성능 귀속의 유효성을 회복한다.

시사점, 한계점

•

기존 하이브리드 선형화 방법의 문제점: 선형 어텐션 구성 요소가 제대로 활용되지 않고 SWA에 과도하게 의존함.

•

문제 원인: 일반적인 상식 벤치마크에 대한 평가 관행의 간과.

•

제안된 해결책:

◦

추론 시간 하이브리드화

◦

HedgeCATs (어텐션 가중치 전송 + LoRA 미세 조정)

◦

SSD (Scheduled Sliding-window Dropout)

•

해결책의 장점: 계산 효율성 유지, 기본 모델 성능 회복, 진정한 선형 어텐션 채택 보장.

•

결론: 하이브리드 선형화 방법의 성능 귀속에 대한 유효성 회복.

Made with Slashpage