Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Dehazing Light Microscopy Images with Guided Conditional Flow Matching: finding a sweet spot between fidelity and realism

EFRame: Deeper Reasoning via Exploration-Filter-Replay Reinforcement Learning Framework

Refine-POI: Reinforcement Fine-Tuned Large Language Models for Next Point-of-Interest Recommendation

HalluSegBench: Counterfactual Visual Reasoning for Segmentation Hallucination Evaluation

Potemkin Understanding in Large Language Models

OmniEval: A Benchmark for Evaluating Omni-modal Models with Visual, Auditory, and Textual Inputs

How to Retrieve Examples in In-context Learning to Improve Conversational Emotion Recognition using Large Language Models?

Position: Machine Learning Conferences Should Establish a "Refutations and Critiques" Track

Arabic Dialect Classification using RNNs, Transformers, and Large Language Models: A Comparative Analysis

Improving Student-AI Interaction Through Pedagogical Prompting: An Example in Computer Science Education

GLIMPSE: Gradient-Layer Importance Mapping for Prompted Visual Saliency Explanation for Generative LVLMs

Automatic Depression Assessment using Machine Learning: A Comprehensive Survey

Generalizing vision-language models to novel domains: A comprehensive survey

Comparative Evaluation of ChatGPT and DeepSeek Across Key NLP Tasks: Strengths, Weaknesses, and Domain-Specific Performance

AI-Generated Song Detection via Lyrics Transcripts

KAG-Thinker: Interactive Thinking and Deep Reasoning in LLMs via Knowledge-Augmented Generation

Data Quality Issues in Multilingual Speech Datasets: The Need for Sociolinguistic Awareness and Proactive Language Planning

Double Entendre: Robust Audio-Based AI-Generated Lyrics Detection via Multi-View Fusion

Aligning Evaluation with Clinical Priorities: Calibration, Label Shift, and Error Costs

Value-Free Policy Optimization via Reward Partitioning

VFEFL: Privacy-Preserving Federated Learning against Malicious Clients via Verifiable Functional Encryption

Enabling Precise Topic Alignment in Large Language Models Via Sparse Autoencoders

Robust LLM Unlearning with MUDMAN: Meta-Unlearning with Disruption Masking And Normalization

CMI-Bench: A Comprehensive Benchmark for Evaluating Music Instruction Following

StepProof: Step-by-step verification of natural language mathematical proofs

Scalable Non-Equivariant 3D Molecule Generation via Rotational Alignment

Improved Supervised Fine-Tuning for Large Language Models to Mitigate Catastrophic Forgetting

SLED: A Speculative LLM Decoding Framework for Efficient Edge Serving

FZOO: Fast Zeroth-Order Optimizer for Fine-Tuning Large Language Models towards Adam-Scale Speed

VeriLoC: Line-of-Code Level Prediction of Hardware Design Quality from Verilog Code

Multi Layered Autonomy and AI Ecologies in Robotic Art Installations

Bridging Subjective and Objective QoE: Operator-Level Aggregation Using LLM-Based Comment Analysis and Network MOS Comparison

Quantum computing and artificial intelligence: status and perspectives

Fine-Tuning Next-Scale Visual Autoregressive Models with Group Relative Policy Optimization

A Large Language Model-Enabled Control Architecture for Dynamic Resource Capability Exploration in Multi-Agent Manufacturing Systems

Spotlight-TTS: Spotlighting the Style via Voiced-Aware Style Extraction and Style Direction Adjustment for Expressive Text-to-Speech

WeatherEdit: Controllable Weather Editing with 4D Gaussian Field

From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data

Error Optimization: Overcoming Exponential Signal Decay in Deep Predictive Coding Networks

TinyAlign: Boosting Lightweight Vision-Language Models by Mitigating Modal Alignment Bottlenecks

Super-Resolution Generative Adversarial Networks based Video Enhancement

Object detection in adverse weather conditions for autonomous vehicles using Instruct Pix2Pix

INSIGHT: Bridging the Student-Teacher Gap in Times of Large Language Models

SConU: Selective Conformal Uncertainty in Large Language Models

MetaSynth: Meta-Prompting-Driven Agentic Scaffolds for Diverse Synthetic Data Generation

Sculpting Memory: Multi-Concept Forgetting in Diffusion Models via Dynamic Mask and Concept-Aware Optimization

Achieving binary weight and activation for LLMs using Post-Training Quantization

A Consequentialist Critique of Binary Classification Evaluation Practices

Redefining Evaluation Standards: A Unified Framework for Evaluating the Korean Capabilities of Language Models

Test-Time Reasoning Through Visual Human Preferences with VLMs and Soft Rewards

FedMM-X: A Trustworthy and Interpretable Framework for Federated Multi-Modal Learning in Dynamic Environments

Automating Adjudication of Cardiovascular Events Using Large Language Models

ATTENTION2D: Communication Efficient Distributed Self-Attention Mechanism

Visual Position Prompt for MLLM based Visual Grounding

Time-R1: Post-Training Large Vision Language Model for Temporal Video Grounding

Privacy Ethics Alignment in AI: A Stakeholder-Centric Framework for Ethical AI

Characterizing GPU Resilience and Impact on AI/HPC Systems

Explainable Sentiment Analysis with DeepSeek-R1: Performance, Efficiency, and Few-Shot Learning

Neurons: Emulating the Human Visual Cortex Improves Fidelity and Interpretability in fMRI-to-Video Reconstruction

The Problem of the Priors, or Posteriors?

Gumiho: A Hybrid Architecture to Prioritize Early Tokens in Speculative Decoding

Disrupting Model Merging: A Parameter-Level Defense Without Sacrificing Accuracy

What can large language models do for sustainable food?

Enough Coin Flips Can Make LLMs Act Bayesian

How to Move Your Dragon: Text-to-Motion Synthesis for Large-Vocabulary Objects

Time-MQA: Time Series Multi-Task Question Answering with Context Enhancement

PipeOffload: Improving Scalability of Pipeline Parallelism with Memory Optimization

Space-Time Graphs of Convex Sets for Multi-Robot Motion Planning

HalCECE: A Framework for Explainable Hallucination Detection through Conceptual Counterfactuals in Image Captioning

LNUCB-TA: Linear-nonlinear Hybrid Bandit Learning with Temporal Attention

No, of course I can! Refusal Mechanisms Can Be Exploited Using Harmless Fine-Tuning Data

Investigating the Impact of Quantization Methods on the Safety and Reliability of Large Language Models

Retrieval Augmented Generation Based LLM Evaluation For Protocol State Machine Inference With Chain-of-Thought Reasoning

A general language model for peptide identification

Cluster and Predict Latent Patches for Improved Masked Image Modeling

Semantic-Aware Adaptive Video Streaming Using Latent Diffusion Models for Wireless Networks

KMI: A Dataset of Korean Motivational Interviewing Dialogues for Psychotherapy

Mechanistic Interpretability of Emotion Inference in Large Language Models

Multimodal Medical Code Tokenizer

Time to Rethink AI for Combinatorial Optimization: Classical Algorithms Remain Tough to Match

Simultaneous Multi-Robot Motion Planning with Projected Diffusion Models

Environment-Driven Online LiDAR-Camera Extrinsic Calibration

Riddle Me This! Stealthy Membership Inference for Retrieval-Augmented Generation

DReSS: Data-driven Regularized Structured Streamlining for Large Language Models

Towards Automated Self-Supervised Learning for Truly Unsupervised Graph Anomaly Detection

Adaptive Rank Allocation for Federated Parameter-Efficient Fine-Tuning of Language Models

DisCoPatch: Taming Adversarially-driven Batch Statistics for Improved Out-of-Distribution Detection

An Investigation into Seasonal Variations in Energy Forecasting for Student Residences

Efficiently Serving Large Multimodal Models Using EPD Disaggregation

PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models

AlignGuard: Scalable Safety Alignment for Text-to-Image Generation

A Library for Learning Neural Operators

ZipAR: Parallel Auto-regressive Image Generation through Spatial Locality

Pretrained Reversible Generation as Unsupervised Visual Representation Learning

FLOAT: Generative Motion Latent Flow Matching for Audio-driven Talking Portrait

SEUF: Is Unlearning One Expert Enough for Mixture-of-Experts LLMs?

Recommender Systems for Good (RS4Good): Survey of Use Cases and a Call to Action for Research that Matters

Foundation Models for Wearable Movement Data in Mental Health Research

GenBFA: An Evolutionary Optimization Approach to Bit-Flip Attacks on LLMs

Enhancing Diffusion Posterior Sampling for Inverse Problems by Integrating Crafted Measurements

DaMO: A Data-Efficient Multimodal Orchestrator for Temporal Reasoning with Video LLMs

Created by

Haebom

저자

Bo-Cheng Chiu, Jen-Jee Chen, Yu-Chee Tseng, Feng-Chi Chen

개요

대규모 언어 모델(LLM)이 비디오 영역으로 확장되어 정교한 비디오-언어 이해를 가능하게 했지만, 기존 비디오 LLM은 미세한 시간적 추론에 제한이 있어 특히 제한된 감독 하에서 응답을 특정 비디오 순간에 정확하게 귀속시키는 능력이 제한적입니다. 본 논문에서는 정확한 시간적 추론과 다중 모드 이해를 위해 명시적으로 설계된 데이터 효율적인 비디오 LLM인 DaMO를 제시합니다. 제안된 시간 인식 Fuseformer는 각 모드 내에서 시간 역학을 점진적으로 포착하고 상호 보완적인 시각 및 오디오 정보를 효과적으로 융합하는 계층적 이중 스트림 아키텍처를 중심으로 합니다. 계산 효율을 더욱 높이기 위해 DaMO는 필수 의미 세부 정보를 유지하면서 공간 중복성을 줄이는 전역 잔차를 통합합니다. DaMO는 구조화된 4단계 점진적 훈련 패러다임을 통해 훈련되며, 모델에 다중 모드 정렬, 의미적 근거 및 시간적 추론 기능을 점진적으로 장착합니다. 또한, 시간적 감독이 필요한 작업을 위해 GPT가 생성한 시간적 근거 QA 쌍으로 확장된 여러 데이터 세트를 기여합니다. 시간적 근거 및 비디오 QA 벤치마크에 대한 포괄적인 실험은 DaMO가 특히 정확한 시간 정렬 및 추론이 필요한 작업에서 이전 방법을 일관되게 능가함을 보여줍니다. 본 연구는 데이터 효율적인 비디오-언어 모델링에 대한 유망한 방향을 제시합니다.

시사점, 한계점

•

시사점:

◦

데이터 효율적인 비디오 LLM인 DaMO를 제시하여 정확한 시간적 추론과 다중 모드 이해를 가능하게 함.

◦

계층적 이중 스트림 아키텍처와 전역 잔차를 통합하여 계산 효율 향상.

◦

GPT를 활용한 데이터 증강으로 시간적 감독이 필요한 작업 성능 향상.

◦

시간적 근거 및 비디오 QA 벤치마크에서 기존 방법 대비 우수한 성능을 달성.

◦

데이터 효율적인 비디오-언어 모델링에 대한 새로운 방향 제시.

•

한계점:

◦

제안된 방법의 일반화 성능에 대한 추가적인 검증 필요.

◦

다양한 비디오 유형 및 복잡도에 대한 로버스트성 평가 필요.

◦

더욱 다양하고 대규모의 데이터셋을 활용한 추가 연구 필요.

◦

시간적 추론의 정확도 한계 및 개선 방안에 대한 추가 연구 필요.

Made with Slashpage