Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Benchmarking LLM Causal Reasoning with Scientifically Validated Relationships

TIGeR: Tool-Integrated Geometric Reasoning in Vision-Language Models for Robotics

Mining the Mind: What 100M Beliefs Reveal About Frontier LLM Knowledge

Open ASR Leaderboard: Towards Reproducible and Transparent Multilingual and Long-Form Speech Recognition Evaluation

Emotionally Vulnerable Subtype of Internet Gaming Disorder: Measuring and Exploring the Pathology of Problematic Generative AI Use

Explaining raw data complexity to improve satellite onboard processing

Foundations of LLM Knowledge Materialization: Termination, Reproducibility, Robustness

Incremental Summarization for Customer Support via Progressive Note-Taking and Agent Feedback

SDAR: A Synergistic Diffusion-AutoRegression Paradigm for Scalable Sequence Generation

A Multimodal GUI Architecture for Interfacing with LLM-Based Conversational Assistants

Distributional Semantics Tracing: A Framework for Explaining Hallucinations in Large Language Models

DACP: Domain-Adaptive Continual Pre-Training of Large Language Models for Phone Conversation Summarization

High-Fidelity Synthetic ECG Generation via Mel-Spectrogram Informed Diffusion Training

Provable Speech Attributes Conversion via Latent Independence

Chronological Thinking in Full-Duplex Spoken Dialogue Language Models

Paper2Video: Automatic Video Generation from Scientific Papers

MacroBench: A Novel Testbed for Web Automation Scripts via Large Language Models

Spatiotemporal Forecasting as Planning: A Model-Based Reinforcement Learning Approach with Generative World Models

Generalized Orders of Magnitude for Scalable, Parallel, High-Dynamic-Range Computation

LogAction: Consistent Cross-system Anomaly Detection through Logs via Active Domain Adaptation

Equilibrium Matching: Generative Modeling with Implicit Energy-Based Models

More Than One Teacher: Adaptive Multi-Guidance Policy Optimization for Diverse Exploration

Learning to Reason for Hallucination Span Detection

Panorama: Fast-Track Nearest Neighbors

Feature Identification via the Empirical NTK

OmniRetarget: Interaction-Preserving Data Generation for Humanoid Whole-Body Loco-Manipulation and Scene Interaction

Efficient and Transferable Agentic Knowledge Graph RAG via Reinforcement Learning

Real-time Noise Detection and Classification in Single-Channel EEG: A Lightweight Machine Learning Approach for EMG, White Noise, and EOG Artifacts

The Sandbox Configurator: A Framework to Support Technical Assessment in AI Regulatory Sandboxes

CORE-3D: Context-aware Open-vocabulary Retrieval by Embeddings in 3D

PARL-MT: Learning to Call Functions in Multi-Turn Conversation with Progress Awareness

Defending MoE LLMs against Harmful Fine-Tuning via Safety Routing Alignment

Learn the Ropes, Then Trust the Wins: Self-imitation with Progressive Exploration for Agentic Reinforcement Learning

InfiR2: A Comprehensive FP8 Training Recipe for Reasoning-Enhanced Language Models

MORPH: Shape-agnostic PDE Foundation Models

Spiffy: Multiplying Diffusion LLM Acceleration via Lossless Speculative Decoding

Evaluating LLM-Generated Versus Human-Authored Responses in Role-Play Dialogues

Audio-Conditioned Diffusion LLMs for ASR and Deliberation Processing

Hierarchical Reinforcement Learning with Low-Level MPC for Multi-Agent Control

ProtoMedX: Towards Explainable Multi-Modal Prototype Learning for Bone Health Classification

From Correction to Mastery: Reinforced Distillation of Large Language Model Agents

Reproducible workflow for online AI in digital health

HiChunk: Evaluating and Enhancing Retrieval-Augmented Generation with Hierarchical Chunking

FireGNN: Neuro-Symbolic Graph Neural Networks with Trainable Fuzzy Rules for Interpretable Medical Image Classification

TalkPlayData 2: An Agentic Synthetic Data Pipeline for Multimodal Conversational Music Recommendation

A Survey of Reinforcement Learning for Large Reasoning Models

X-Teaming Evolutionary M2S: Automated Discovery of Multi-turn to Single-turn Jailbreak Templates

Barycentric Neural Networks and Length-Weighted Persistent Entropy Loss: A Green Geometric and Topological Framework for Function Approximation

Scaling Performance of Large Language Model Pretraining

Towards Methane Detection Onboard Satellites

AEGIS : Automated Co-Evolutionary Framework for Guarding Prompt Injections Schema

Middo: Model-Informed Dynamic Data Optimization for Enhanced LLM Fine-Tuning via Closed-Loop Learning

Safe-Control: A Safety Patch for Mitigating Unsafe Content in Text-to-Image Generation Models

Condition Weaving Meets Expert Modulation: Towards Universal and Controllable Image Generation

Long Chain-of-Thought Reasoning Across Languages

MAHL: Multi-Agent LLM-Guided Hierarchical Chiplet Design with Adaptive Debugging

MCPSecBench: A Systematic Security Benchmark and Playground for Testing Model Context Protocols

MInDI-3D: Iterative Deep Learning in 3D for Sparse-view Cone Beam Computed Tomography

MAViS: A Multi-Agent Framework for Long-Sequence Video Storytelling

CoCoA: Collaborative Chain-of-Agents for Parametric-Retrieved Knowledge Synergy

Can Small-Scale Data Poisoning Exacerbate Dialect-Linked Biases in Large Language Models?

Distilling a Small Utility-Based Passage Selector to Enhance Retrieval-Augmented Generation

From Feedback to Checklists: Grounded Evaluation of AI-Generated Clinical Notes

Controllable Hybrid Captioner for Improved Long-form Video Understanding

Leveraging Personalized PageRank and Higher-Order Topological Structures for Heterophily Mitigation in Graph Neural Networks

Understanding Teen Overreliance on AI Companion Chatbots Through Self-Reported Reddit Narratives

ERR@HRI 2.0 Challenge: Multimodal Detection of Errors and Failures in Human-Robot Conversations

Efficiency-Effectiveness Reranking FLOPs for LLM-based Rerankers

Truth, Trust, and Trouble: Medical AI on the Edge

LLMs on a Budget? Say HOLA

The Role of Model Confidence on Bias Effects in Measured Uncertainties for Vision-Language Models

A Survey of Foundation Models for IoT: Taxonomy and Criteria-Based Analysis

Breaking the Reviewer: Assessing the Vulnerability of Large Language Models in Automated Peer Review Under Textual Adversarial Attacks

Not All Clients Are Equal: Collaborative Model Personalization on Heterogeneous Multi-Modal Clients

Rethinking Losses for Diffusion Bridge Samplers

Think With Videos For Agentic Long-Video Understanding

ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning

Intention-Conditioned Flow Occupancy Models

Product of Experts for Visual Generation

Modality-Balancing Preference Optimization of Large Multimodal Models by Adversarial Negative Mining

Dissecting Logical Reasoning in LLMs: A Fine-Grained Evaluation and Supervision Study

Tug-of-war between idioms' figurative and literal interpretations in LLMs

MAGREF: Masked Guidance for Any-Reference Video Generation with Subject Disentanglement

GL-PGENet: A Parameterized Generation Framework for Robust Document Image Enhancement

CAST: Contrastive Adaptation and Distillation for Semi-Supervised Instance Segmentation

Trans-EnV: A Framework for Evaluating the Linguistic Robustness of LLMs Against English Varieties

The Shape of Adversarial Influence: Characterizing LLM Latent Spaces with Persistent Homology

BiomedSQL: Text-to-SQL for Scientific Reasoning on Biomedical Knowledge Bases

Inference-time Alignment in Continuous Space

STOPA: A Database of Systematic VariaTion Of DeePfake Audio for Open-Set Source Tracing and Attribution

Search Wisely: Mitigating Sub-optimal Agentic Searches By Reducing Uncertainty

Watch your steps: Dormant Adversarial Behaviors that Activate upon LLM Finetuning

LLINBO: Trustworthy LLM-in-the-Loop Bayesian Optimization

Logic Jailbreak: Efficiently Unlocking LLM Safety Restrictions Through Formal Logical Expression

FairSHAP: Preprocessing for Fairness Through Attribution-Based Data Augmentation

Hakim: Farsi Text Embedding Model

Understanding In-context Learning of Addition via Activation Subspaces

Evaluating Evaluation Metrics -- The Mirage of Hallucination Detection

T-VEC: A Telecom-Specific Vectorization Model with Enhanced Semantic Understanding via Deep Triplet Loss Fine-Tuning

Hallucination Detection in LLMs with Topological Divergence on Attention Graphs

Learn the Ropes, Then Trust the Wins: Self-imitation with Progressive Exploration for Agentic Reinforcement Learning

Created by

Haebom

저자

Yulei Qin, Xiaoyu Tan, Zhengbao He, Gang Li, Haojia Lin, Zongyi Li, Zihan Xu, Yuchen Shi, Siqi Cai, Renting Rui, Shaofei Cai, Yuzheng Cai, Xuan Zhang, Sheng Ye, Ke Li, Xing Sun

SPEAR: Curriculum-based Self-Imitation Learning for Agentic LLMs

개요

강화 학습(RL)은 LLM의 장기적이고 희소한 보상이 있는 에이전트 태스크에서 전략적 도구 사용 능력을 향상시키는 데 지배적인 패러다임이지만, 탐색-활용의 근본적인 문제에 직면합니다. 본 논문에서는 정책 엔트로피를 통한 탐색을 자극하는 기존 연구의 문제점을 지적하고, 에이전트 자신의 경험을 바탕으로 엔트로피 붕괴나 발산 없이 점진적인 탐색-활용 균형을 목표로 합니다. SPEAR는 에이전트 LLM을 훈련하기 위한 커리큘럼 기반의 자기 모방 학습(SIL) 방식을 제안합니다. SPEAR는 SIL 프레임워크를 확장하여, 재현 버퍼에 자체 생성한 유망한 궤적을 저장하여 오프 폴리시 업데이트를 수행하며, 각 단계별로 균형 잡힌 엔트로피 범위를 유지하면서 정책을 점진적으로 발전시킵니다. SPEAR는 내재적 보상을 활용하여 기술 수준의 탐색을 촉진하고, SIL을 통해 액션 수준의 탐색을 용이하게 하는 커리큘럼을 통합합니다. 훈련 초반에는 보조 도구 호출 보상이 도구 사용 기술 축적에 중요한 역할을 하며, 훈련이 진행됨에 따라 자기 모방을 강화하여 기존 성공 패턴을 활용하고, 궤적 수준의 엔트로피 제어를 위해 과신을 억제하는 정규화를 도입합니다.

시사점, 한계점

•

시사점:

◦

RL 기반 LLM 훈련의 탐색-활용 딜레마 해결을 위한 새로운 방법론 제시.

◦

커리큘럼 기반의 자기 모방 학습(SIL) 방식을 통해 탐색과 활용의 균형을 맞춤.

◦

도구 사용 기술 습득을 위한 단계적 학습 접근 방식 제시.

◦

훈련 안정성을 위한 다양한 정규화 기법 도입.

•

한계점:

◦

구체적인 실험 결과 및 성능 비교에 대한 정보 부족 (논문 요약에서 확인 불가).

◦

다른 RL 기반 방법론과의 비교 분석 정보 부재.

◦

특정 환경(장기적이고 희소한 보상 환경)에서의 성능에 대한 제한적인 정보.

Made with Slashpage