Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

A Survey on Cache Methods in Diffusion Models: Toward Efficient Multi-Modal Generation

Learning To Defer To A Population With Limited Demonstrations

Every Attention Matters: An Efficient Hybrid Architecture for Long-Context Reasoning

Local Guidance for Configuration-Based Multi-Agent Pathfinding

Diagnosing Representation Dynamics in NER Model Extension

GUIDE: Enhancing Gradient Inversion Attacks in Federated Learning with Denoising Models

The Parameterized Complexity of Computing the VC-Dimension

TabR1: Taming GRPO for tabular reasoning LLMs

Efficient Vision-Language-Action Models for Embodied Manipulation: A Systematic Survey

Improving Model Representation and Reducing KV Cache via Skip Connections with First Value Heads

HumanCM: One Step Human Motion Prediction

SPLite Hand: Sparsity-Aware Lightweight 3D Hand Pose Estimation

Bridging Symmetry and Robustness: On the Role of Equivariance in Enhancing Adversarial Robustness

MARIS: Marine Open-Vocabulary Instance Segmentation with Geometric Enhancement and Semantic Alignment

Towards Robust Zero-Shot Reinforcement Learning

VaultGemma: A Differentially Private Gemma Model

Feature Selection and Regularization in Multi-Class Classification: An Empirical Study of One-vs-Rest Logistic Regression with Gradient Descent Optimization and L1 Sparsity Constraints

Bayes or Heisenberg: Who(se) Rules?

Epistemic-aware Vision-Language Foundation Model for Fetal Ultrasound Interpretation

Phenome-Wide Multi-Omics Integration Uncovers Distinct Archetypes of Human Aging

Empirical Study on Robustness and Resilience in Cooperative Multi-Agent Reinforcement Learning

HoMer: Addressing Heterogeneities by Modeling Sequential and Set-wise Contexts for CTR Prediction

On the Fairness of Privacy Protection: Measuring and Mitigating the Disparity of Group Privacy Risks for Differentially Private Machine Learning

FlyLoRA: Boosting Task Decoupling and Parameter Efficiency via Implicit Rank-Wise Mixture-of-Experts

Stress-Testing Model Specs Reveals Character Differences among Language Models

Relational Transformer: Toward Zero-Shot Foundation Models for Relational Data

A New Digital Divide? Coder Worldviews, the Slop Economy, and Democracy in the Age of AI

Replacing Softmax Similarity with a Sharpened Angular Similarity: Theory and Practice of Scaling To Billion-Context Attention

TriQuest:An AI Copilot-Powered Platform for Interdisciplinary Curriculum Design

Constraint Satisfaction Approaches to Wordle: Novel Heuristics and Cross-Lexicon Validation

Addressing Pitfalls in the Evaluation of Uncertainty Estimation Methods for Natural Language Generation

DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing

FerretNet: Efficient Synthetic Image Detection via Local Pixel Dependencies

TianHui: A Domain-Specific Large Language Model for Diverse Traditional Chinese Medicine Scenarios

WolBanking77: Wolof Banking Speech Intent Classification Dataset

PersonaMatrix: A Recipe for Persona-Aware Evaluation of Legal Summarization

floq: Training Critics via Flow-Matching for Scaling Compute in Value-Based RL

Toward a Metrology for Artificial Intelligence: Hidden-Rule Environments and Reinforcement Learning

Benchmarking GPT-5 for biomedical natural language processing

Sparse Autoencoder Neural Operators: Model Recovery in Function Spaces

Conformal Prediction for Time-series Forecasting with Change Points

Multi-Agent Reinforcement Learning for Task Offloading in Wireless Edge Networks

LFD: Layer Fused Decoding to Exploit External Knowledge in Retrieval-Augmented Generation

Memory Decoder: A Pretrained, Plug-and-Play Memory for Large Language Models

Position: The Current AI Conference Model is Unsustainable! Diagnosing the Crisis of Centralized AI Conference

DMSC: Dynamic Multi-Scale Coordination Framework for Time Series Forecasting

Bayesian Optimization of Process Parameters of a Sensor-Based Sorting System using Gaussian Processes as Surrogate Models

MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks

Fine-Tuning Multilingual Language Models for Code Review: An Empirical Study on Industrial C# Projects

Compositional Coordination for Multi-Robot Teams with Large Language Models

Quantization-Aware Neuromorphic Architecture for Efficient Skin Disease Classification on Resource-Constrained Devices

Frequency-Dynamic Attention Modulation for Dense Prediction

Crafting Imperceptible On-Manifold Adversarial Attacks for Tabular Data

ixi-GEN: Efficient Industrial sLLMs through Domain Adaptive Continual Pretraining

Symbiosis: Multi-Adapter Inference and Fine-Tuning

Serving LLMs in HPC Clusters: A Comparative Study of Qualcomm Cloud AI 100 Ultra and NVIDIA Data Center GPUs

Learning Modular Exponentiation with Transformers

From High-SNR Radar Signal to ECG: A Transfer Learning Model with Cardio-Focusing Algorithm for Scenarios with Limited Data

ReDit: Reward Dithering for Improved LLM Policy Optimization

Flow based approach for Dynamic Temporal Causal models with non-Gaussian or Heteroscedastic Noises

Watermarking Autoregressive Image Generation

AssistedDS: Benchmarking How External Domain Knowledge Assists LLMs in Automated Data Science

Edit Flows: Flow Matching with Edit Operations

LeVo: High-Quality Song Generation with Multi-Preference Alignment

HauntAttack: When Attack Follows Reasoning as a Shadow

FuseUNet: A Multi-Scale Feature Fusion Method for U-like Networks

Direct Numerical Layout Generation for 3D Indoor Scene Synthesis via Spatial Reasoning

Leveraging Analytic Gradients in Provably Safe Reinforcement Learning

REOrdering Patches Improves Vision Models

Machine Unlearning under Overparameterization

Train with Perturbation, Infer after Merging: A Two-Stage Framework for Continual Learning

Balanced Token Pruning: Accelerating Vision Language Models Beyond Local Optimization

Autoencoding Random Forests

Towards Interpretability Without Sacrifice: Faithful Dense Layer Decomposition with Mixture of Decoders

LeCoDe: A Benchmark Dataset for Interactive Legal Consultation Dialogue Evaluation

Breaking mBad! Supervised Fine-tuning for Cross-Lingual Detoxification

Your Pre-trained LLM is Secretly an Unsupervised Confidence Calibrator

How Ensembles of Distilled Policies Improve Generalisation in Reinforcement Learning

LLM-Explorer: A Plug-in Reinforcement Learning Policy Exploration Enhancement Driven by Large Language Models

RL Tango: Reinforcing Generator and Verifier Together for Language Reasoning

Text Generation Beyond Discrete Token Sampling

CLEVER: A Curated Benchmark for Formally Verified Code Generation

One-Step Offline Distillation of Diffusion-based Models via Koopman Modeling

CALM-PDE: Continuous and Adaptive Convolutions for Latent Space Modeling of Time-dependent PDEs

Shallow Flow Matching for Coarse-to-Fine Text-to-Speech Synthesis

Superposition Yields Robust Neural Scaling

Fair Clustering via Alignment

UMoE: Unifying Attention and FFN with Shared Experts

PRUNE: A Patching Based Repair Framework for Certifiable Unlearning of Neural Networks

Don't be lazy: CompleteP enables compute-efficient deep transformers

Fast-Slow Thinking GRPO for Large Vision-Language Model Reasoning

Integrating Structural and Semantic Signals in Text-Attributed Graphs with BiGTex

Token embeddings violate the manifold hypothesis

DIPLI: Deep Image Prior Lucky Imaging for Blind Astronomical Image Restoration

Deep Learning-Powered Electrical Brain Signals Analysis: Advancing Neurological Diagnostics

ExpertLens: Activation steering features are highly interpretable

Neural Attention Search

Toward Metaphor-Fluid Conversation Design for Voice User Interfaces

S$^2$-Diffusion: Generalizing from Instance-level to Category-level Skills in Robot Manipulation

DMWM: Dual-Mind World Model with Long-Term Imagination

SLM-Based Agentic AI with P-C-G: Optimized for Korean Tool Use

Created by

Haebom

저자

Changhyun Jeon, Jinhee Park, Jungwoo Choi, Keonwoo Kim, Jisu Kim, Minji Hong

개요

본 논문은 한국어 도구 사용에 최적화된 소규모 언어 모델(SLM) 기반 에이전트 아키텍처인 Planner-Caller-Generator (P-C-G)를 제안합니다. P-C-G는 계획, 호출, 생성을 역할별로 분리하여 Planner는 제한적인 온디맨드 재계획을 통해 초기 일괄 계획을 생성하고, Caller는 공동 스키마-값 검증 후 정규화된 호출 객체를 반환하며, Generator는 도구 출력을 통합하여 최종 답변을 생성합니다. 한국어 환경에서 한국어-영어 코드 전환으로 인한 실행 실패를 줄이기 위해 한국어 우선 값 정책을 적용합니다. 평가는 한국어 질의와 한국어 도구/매개변수 사양을 가정하며, 단일 체인, 다중 체인, 매개변수 누락, 함수 누락 시나리오를 포함하고, 통합 I/O 인터페이스에서 5회 실행에 대한 평균을 낸 LLM-as-a-Judge 프로토콜을 통해 수행됩니다. 결과는 P-C-G가 토큰을 줄이고 허용 가능한 대기 시간을 유지하면서 경쟁력 있는 도구 사용 정확도와 종단 간 품질을 제공함을 보여주며, 역할 전문화 SLM이 한국어 도구 사용 에이전트에 대한 비용 효율적인 대안임을 시사합니다.

시사점, 한계점

•

시사점:

◦

한국어 도구 사용에 최적화된 소규모 언어 모델 기반 에이전트 아키텍처 P-C-G 제안.

◦

역할 분리(Planner, Caller, Generator)를 통한 효율적인 도구 사용.

◦

한국어 우선 정책을 통한 한국어 환경에서의 실행 실패 감소.

◦

경쟁력 있는 도구 사용 정확도와 종단 간 품질 달성.

◦

토큰 감소 및 허용 가능한 대기 시간 유지.

◦

소규모 모델을 이용한 비용 효율적인 도구 사용 에이전트 구현 가능성 제시.

•

한계점:

◦

평가가 LLM-as-a-Judge 프로토콜과 제한된 시나리오에 기반하여 수행됨.

◦

실제 다양한 한국어 도구 및 사용 환경에 대한 일반화 가능성에 대한 추가 연구 필요.

◦

P-C-G 아키텍처의 확장성 및 복잡한 작업 처리 능력에 대한 추가적인 검증 필요.

Made with Slashpage