Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Strategic Dishonesty Can Undermine AI Safety Evaluations of Frontier LLMs

Reinforced Generation of Combinatorial Structures: Applications to Complexity Theory

The Narcissus Hypothesis: Descending to the Rung of Illusion

Adaptive Kernel Design for Bayesian Optimization Is a Piece of CAKE with LLMs

Joint Memory Frequency and Computing Frequency Scaling for Energy-efficient DNN Inference

Fine-Grained Detection of AI-Generated Text Using Sentence-Level Segmentation

Multimodal Medical Image Classification via Synergistic Learning Pre-training

MVCL-DAF++: Enhancing Multimodal Intent Recognition via Prototype-Aware Contrastive Alignment and Coarse-to-Fine Dynamic Attention Fusion

A Chain-of-thought Reasoning Breast Ultrasound Dataset Covering All Histopathology Categories

PruneCD: Contrasting Pruned Self Model to Improve Decoding Factuality

AHA - Predicting What Matters Next: Online Highlight Detection Without Looking Ahead

Highly Imbalanced Regression with Tabular Data in SEP and Other Applications

Gender and Political Bias in Large Language Models: A Demonstration Platform

RPG: A Repository Planning Graph for Unified and Scalable Codebase Generation

Interpretable Nanoporous Materials Design with Symmetry-Aware Networks

DivLogicEval: A Framework for Benchmarking Logical Reasoning Evaluation in Large Language Models

MOCHA: Multi-modal Objects-aware Cross-arcHitecture Alignment

LLM Agents for Interactive Workflow Provenance: Reference Architecture and Evaluation Methodology

Justice in Judgment: Unveiling (Hidden) Bias in LLM-assisted Peer Reviews

Single-stream Policy Optimization

FragmentGPT: A Unified GPT Model for Fragment Growing, Linking, and Merging in Molecular Design

ToMA: Token Merge with Attention for Diffusion Models

Clip Your Sequences Fairly: Enforcing Length Fairness for Sequence-Level RL

MEGS$^{2}$: Memory-Efficient Gaussian Splatting via Spherical Gaussians and Unified Pruning

FediLoRA: Heterogeneous LoRA for Federated Multimodal Fine-tuning under Missing Modalities

Long-Range Graph Wavelet Networks

Agentic Software Engineering: Foundational Pillars and a Research Roadmap

TinyDef-DETR: A DETR-based Framework for Defect Detection in Transmission Lines from UAV Imagery

PDTrim: Targeted Pruning for Prefill-Decode Disaggregation in Inference

The Transparent Earth: A Multimodal Foundation Model for the Earth's Subsurface

An Information-Flow Perspective on Explainability Requirements: Specification and Verification

SoK: Large Language Model Copyright Auditing via Fingerprinting

Unlearning as Ablation: Toward a Falsifiable Benchmark for Generative Scientific Discovery

Linguistic Neuron Overlap Patterns to Facilitate Cross-lingual Transfer on Low-resource Languages

Retrieval Enhanced Feedback via In-context Neural Error-book

OpenWHO: A Document-Level Parallel Corpus for Health Translation in Low-Resource Languages

Hierarchical Evaluation Function: A Multi-Metric Approach for Optimizing Demand Forecasting Models

Generative Medical Event Models Improve with Scale

Benchmarking Quantum and Classical Sequential Models for Urban Telecommunication Forecasting

Integrating Belief Domains into Probabilistic Logic Programs

Automating Steering for Safe Multimodal Large Language Models

QSpark: Towards Reliable Qiskit Code Generation

Prompting for Performance: Exploring LLMs for Configuring Software

Intra-DP: A High Performance Collaborative Inference System for Mobile Edge Computing

Exploring Image Generation via Mutually Exclusive Probability Spaces and Local Correlation Hypothesis

Athena: Enhancing Multimodal Reasoning with Data-efficient Process Reward Models

Image Segmentation and Classification of E-waste for Training Robots for Waste Segregation

LaMP-Cap: Personalized Figure Caption Generation With Multimodal Figure Profiles

Speculative Decoding via Hybrid Drafting and Rollback-Aware Branch Parallelism

Foresight: Adaptive Layer Reuse for Accelerated and High-Quality Text-to-Video Generation

BroadGen: A Framework for Generating Effective and Efficient Advertiser Broad Match Keyphrase Recommendations

Large Language Models Implicitly Learn to See and Hear Just By Reading

AvatarShield: Visual Reinforcement Learning for Human-Centric Synthetic Video Detection

WavReward: Spoken Dialogue Models With Generalist Reward Evaluators

Beyond Input Activations: Identifying Influential Latents by Gradient Sparse Autoencoders

Pandora: A Code-Driven Large Language Model Agent for Unified Reasoning Across Diverse Structured Knowledge

Visual Chronicles: Using Multimodal LLMs to Analyze Massive Collections of Images

LookAhead Tuning: Safer Language Models via Partial Answer Previews

CaKE: Circuit-aware Editing Enables Generalizable Knowledge Learners

A Survey on Sparse Autoencoders: Interpreting the Internal Mechanisms of Large Language Models

Union of Experts: Adapting Hierarchical Routing to Equivalently Decomposed Transformer

Leveraging Large Models to Evaluate Novel Content: A Case Study on Advertisement Creativity

Promote, Suppress, Iterate: How Language Models Answer One-to-Many Factual Queries

Can LLMs Explain Themselves Counterfactually?

Structure-prior Informed Diffusion Model for Graph Source Localization with Limited Data

THFlow: A Temporally Hierarchical Flow Matching Framework for 3D Peptide Design

LightThinker: Thinking Step-by-Step Compression

Purest Quantum State Identification

JL1-CD: A New Benchmark for Remote Sensing Change Detection and a Robust Multi-Teacher Knowledge Distillation Framework

Language Models Can Predict Their Own Behavior

DeepResonance: Enhancing Multimodal Music Understanding via Music-centric Multi-way Instruction Tuning

Without Paired Labeled Data: End-to-End Self-Supervised Learning for Drone-view Geo-Localization

Fine-Tuning is Subgraph Search: A New Lens on Learning Dynamics

EventVL: Understand Event Streams via Multimodal Large Language Model

Injecting Explainability and Lightweight Design into Weakly Supervised Video Anomaly Detection Systems

Biology-Instructions: A Dataset and Benchmark for Multi-Omics Sequence Understanding Capability of Large Language Models

Backdoor Attack with Invisible Triggers Based on Model Architecture Modification

Language Models as Causal Effect Generators

EMMA: End-to-End Multimodal Model for Autonomous Driving

Exploring Model Kinship for Merging Large Language Models

Post-hoc Study of Climate Microtargeting on Social Media Ads with LLMs: Thematic Insights and Fairness Evaluation

Variational Bayes Gaussian Splatting

DOTA: Distributional Test-Time Adaptation of Vision-Language Models

GALLa: Graph Aligned Large Language Models for Improved Source Code Understanding

LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via a Hybrid Architecture

Your Turn: At Home Turning Angle Estimation for Parkinson's Disease Severity Assessment

MediSyn: A Generalist Text-Guided Latent Diffusion Model For Diverse Medical Image Synthesis

Socially Pertinent Robots in Gerontological Healthcare

"What is Different Between These Datasets?" A Framework for Explaining Data Distribution Shifts

Is Pre-training Truly Better Than Meta-Learning?

Improving Image Captioning Descriptiveness by Ranking and LLM-based Fusion

Mitigating Strategy-Selection Bias in Reasoning for More Effective Test-Time Scaling

Virtual Arc Consistency for Linear Constraints in Cost Function Networks

A Multimodal Conversational Assistant for the Characterization of Agricultural Plots from Geospatial Open Data

Program Synthesis via Test-Time Transduction

OpenLens AI: Fully Autonomous Research Agent for Health Infomatics

Difficulty-Aware Agent Orchestration in LLM-Powered Workflows

Abduct, Act, Predict: Scaffolding Causal Inference for Automated Failure Attribution in Multi-Agent Systems

TableMind: An Autonomous Programmatic Agent for Tool-Augmented Table Reasoning

One Subgoal at a Time: Zero-Shot Generalization to Arbitrary Linear Temporal Logic Requirements in Multi-Task Reinforcement Learning

Unlearning as Ablation: Toward a Falsifiable Benchmark for Generative Scientific Discovery

Created by

Haebom

저자

Robert Yang

개요

본 논문은 AI가 과학에 기여한다는 주장, 특히 AGI가 모든 질병을 치료하거나 과학적 발견을 획기적으로 가속화할 것이라는 주장에 대한 회의적인 시각을 제시한다. 대규모 언어 모델(LLM)이 새로운 지식을 생성하는지, 아니면 단순히 기억된 단편들을 재조합하는지에 대한 핵심적인 인식론적 질문을 던진다. 이에 대한 검증 가능한 방법으로 "unlearning-as-ablation"을 제안한다. 이는 특정 결과와 그 결과를 뒷받침하는 모든 정보(보조 정리, 다른 표현, 다단계 추론 등)를 모델에서 제거한 후, 허용된 공리와 도구만을 사용하여 모델이 해당 결과를 재도출할 수 있는지 평가하는 것이다. 성공은 단순한 기억을 넘어선 생성 능력을, 실패는 현재 한계를 보여준다. 본 논문은 수학과 알고리즘을 예시로 하여 해당 방법의 실현 가능성을 보여주는 최소한의 파일럿 연구 개요를 제시하고, 물리학이나 화학과 같은 다른 분야로의 확장 가능성을 논의한다. 본 논문은 경험적 결과보다는 개념적, 방법론적 기여에 초점을 맞춘 주장 논문이며, AI가 과학적 지식을 재구성하는지 단순히 검색하는지 구분하는 데 원칙적인 제거 테스트가 어떻게 도움이 될 수 있는지, 그리고 그러한 검증이 차세대 AI-for-Science 벤치마크를 어떻게 이끌 수 있는지에 대한 논의를 촉진하는 것을 목표로 한다.

시사점, 한계점

•

시사점: AI가 과학적 발견에 기여하는지 여부를 평가하기 위한 새로운 방법론인 "unlearning-as-ablation"을 제안함으로써 AI-for-Science 분야의 엄밀한 평가 방법론 발전에 기여한다. LLM의 진정한 생성 능력을 평가하고, 단순한 기억 재생산과 구분할 수 있는 척도를 제시한다. 차세대 AI-for-Science 벤치마크 개발에 중요한 시사점을 제공한다.

•

한계점: 본 논문은 개념적, 방법론적 논의에 초점을 맞춘 주장 논문으로, 실제 경험적 증거는 제시되지 않았다. 제안된 방법론의 실제 적용 가능성과 효율성에 대한 추가적인 실험적 연구가 필요하다. 다양한 과학 분야에 대한 적용 가능성과 일반화 가능성에 대한 추가 연구가 필요하다. 수학 및 알고리즘 분야를 넘어, 물리학이나 화학과 같은 다른 분야에 적용하기 위한 구체적인 방법론 및 어려움에 대한 추가적인 논의가 필요하다.

Made with Slashpage