Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Towards culturally-appropriate conversational AI for health in the majority world: An exploratory study with citizens and professionals in Latin America

AdamMeme: Adaptively Probe the Reasoning Capacity of Multimodal Large Language Models on Harmfulness

Exploring Advanced LLM Multi-Agent Systems Based on Blackboard Architecture

Relational Causal Discovery with Latent Confounders

GPT, But Backwards: Exactly Inverting Language Model Outputs

Blending Supervised and Reinforcement Fine-Tuning with Prefix Sampling

Deep Recommender Models Inference: Automatic Asymmetric Data Flow Optimization

Comparing Optimization Algorithms Through the Lens of Search Behavior Analysis

AsyncFlow: An Asynchronous Streaming RL Framework for Efficient LLM Post-Training

Autoregressive Image Generation with Linear Complexity: A Spatial-Aware Decay Perspective

GradMetaNet: An Equivariant Architecture for Learning on Gradients

Customized Exploration of Landscape Features Driving Multi-Objective Combinatorial Optimization Performance

Depth Anything at Any Condition

Tile and Slide : A New Framework for Scaling NeRF from Local to Global 3D Earth Observation

Prompt Guidance and Human Proximal Perception for HOT Prediction with Regional Joint Loss

Enhanced Influence-aware Group Recommendation for Online Media Propagation

Survivability of Backdoor Attacks on Unconstrained Face Recognition Systems

Data Agent: A Holistic Architecture for Orchestrating Data+AI Ecosystems

Autonomous AI Surveillance: Multimodal Deep Learning for Cognitive and Behavioral Monitoring

Exploring Classical Piano Performance Generation with Expressive Music Variational AutoEncoder

Real-Time Emergency Vehicle Siren Detection with Efficient CNNs on Embedded Hardware

Self-Guided Process Reward Optimization with Masked Step Advantage for Process Reinforcement Learning

Crafting Hanzi as Narrative Bridges: An AI Co-Creation Workshop for Elderly Migrants

AI and Remote Sensing for Resilient and Sustainable Built Environments: A Review of Current Methods, Open Data and Future Directions

Chargax: A JAX Accelerated EV Charging Simulator

Following the Clues: Experiments on Person Re-ID using Cross-Modal Intelligence

Integrating Traditional and Deep Learning Methods to Detect Tree Crowns in Satellite Images

Crop Pest Classification Using Deep Learning Techniques: A Review

BioMARS: A Multi-Agent Robotic System for Autonomous Biological Experiments

Epistemic Scarcity: The Economics of Unresolvable Unknowns

Evaluating the Effectiveness of Direct Preference Optimization for Personalizing German Automatic Text Simplifications for Persons with Intellectual Disabilities

Zero-Incentive Dynamics: a look at reward sparsity through the lens of unrewarded subgoals

NOCTIS: Novel Object Cyclic Threshold based Instance Segmentation

Quantum-Assisted Automatic Path-Planning for Robotic Quality Inspection in Industry 4.0

Tensor Program Optimization for the RISC-V Vector Extension Using Probabilistic Programs

EdgeLoRA: An Efficient Multi-Tenant LLM Serving System on Edge Devices

Hardware-software co-exploration with racetrack memory based in-memory computing for CNN inference in embedded systems

DocShaDiffusion: Diffusion Model in Latent Space for Document Image Shadow Removal

Penalizing Transparency? How AI Disclosure and Author Demographics Shape Human and AI Judgments About Writing

Evaluating LLM Agent Collusion in Double Auctions

Age Sensitive Hippocampal Functional Connectivity: New Insights from 3D CNNs and Saliency Mapping

Medical-Knowledge Driven Multiple Instance Learning for Classifying Severe Abdominal Anomalies on Prenatal Ultrasound

Distributional Soft Actor-Critic with Diffusion Policy

RALLY: Role-Adaptive LLM-Driven Yoked Navigation for Agentic UAV Swarms

Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy

User-guided Generative Source Separation

LEDOM: An Open and Fundamental Reverse Language Model

Reasoner for Real-World Event Detection: Scaling Reinforcement Learning via Adaptive Perplexity-Aware Sampling Strategy

ICLShield: Exploring and Mitigating In-Context Learning Backdoor Attacks

Neural Hamiltonian Operator

VLAD: A VLM-Augmented Autonomous Driving Framework with Hierarchical Planning and Interpretable Decision Process

Rethinking All Evidence: Enhancing Trustworthy Retrieval-Augmented Generation via Conflict-Driven Summarization

AI Meets Maritime Training: Precision Analytics for Enhanced Safety and Performance

PULSE: Practical Evaluation Scenarios for Large Multimodal Model Unlearning

LLM-based Realistic Safety-Critical Driving Video Generation

GAIus: Combining Genai with Legal Clauses Retrieval for Knowledge-based Assistant

Beyond First-Order: Training LLMs with Stochastic Conjugate Subgradients and AdamW

Capacity Planning and Scheduling for Jobs with Uncertainty in Resource Usage and Duration

Search-Based Robot Motion Planning With Distance-Based Adaptive Motion Primitives

Are Large Brainwave Foundation Models Capable Yet? Insights from Fine-tuning

Geometry-aware 4D Video Generation for Robot Manipulation

AI-guided digital intervention with physiological monitoring reduces intrusive memories after experimental trauma

Empirical Analysis Of Heuristic and Approximation Algorithms for the The Mutual-Visibility Problem

Evaluation of a Foundational Model and Stochastic Models for Forecasting Sporadic or Spiky Production Outages of High-Performance Machine Learning Services

FAIR-MATCH: A Multi-Objective Framework for Bias Mitigation in Reciprocal Dating Recommendations

Quantifying Student Success with Generative AI: A Monte Carlo Simulation Informed by Systematic Review

Epitome: Pioneering an Experimental Platform for AI-Social Science Integration

Automated Vehicles Should be Connected with Natural Language

A Data Science Approach to Calcutta High Court Judgments: An Efficient LLM and RAG-powered Framework for Summarization and Similar Cases Retrieval

Prompt Mechanisms in Medical Imaging: A Comprehensive Survey

XxaCT-NN: Structure Agnostic Multimodal Learning for Materials Science

Conversational LLMs Simplify Secure Clinical Data Access, Understanding, and Analysis

Long-Sequence Memory with Temporal Kernels and Dense Hopfield Functionals

Can AI be Consentful?

Text Detoxification: Data Efficiency, Semantic Preservation and Model Generalization

Sensing Cardiac Health Across Scenarios and Devices: A Multi-Modal Foundation Model Pretrained on Heterogeneous Data from 1.7 Million Individuals

Data Classification with Dynamically Growing and Shrinking Neural Networks

Can Argus Judge Them All? Comparing VLMs Across Domains

Fast AI Model Splitting over Edge Networks

Fast Clifford Neural Layers

On-Policy Optimization of ANFIS Policies Using Proximal Policy Optimization

Learning to Segment for Vehicle Routing Problems

Systemic Constraints of Undecidability

Research on Low-Latency Inference and Training Efficiency Optimization for Graph Neural Network and Large Language Model-Based Recommendation Systems

Data-driven Insights for Informed Decision-Making: Applying LSTM Networks for Robust Electricity Forecasting in Libya

An Uncertainty-Aware Dynamic Decision Framework for Progressive Multi-Omics Integration in Classification Tasks

PathCoT: Chain-of-Thought Prompting for Zero-shot Pathology Visual Reasoning

HPC-AI Coupling Methodology for Scientific Applications

Hello Afrika: Speech Commands in Kinyarwanda

A Systematic Review of Security Vulnerabilities in Smart Home Devices and Mitigation Techniques

Refining Gelfond Rationality Principle Towards More Comprehensive Foundational Principles for Answer Set Semantics

Joint Matching and Pricing for Crowd-shipping with In-store Customers

Agent Ideate: A Framework for Product Idea Generation from Patents Using Agentic AI

T3DM: Test-Time Training-Guided Distribution Shift Modelling for Temporal Knowledge Graph Reasoning

Agent-as-Tool: A Study on the Hierarchical Decision Making with Reinforcement Learning

Using multi-agent architecture to mitigate the risk of LLM hallucinations

Pensieve Grader: An AI-Powered, Ready-to-Use Platform for Effortless Handwritten STEM Grading

A Fuzzy Approach to the Specification, Verification and Validation of Risk-Based Ethical Decision Making Models

AI Agents and Agentic AI-Navigating a Plethora of Concepts for Future Manufacturing

Beyond Black-Box AI: Interpretable Hybrid Systems for Dementia Care

HyperCLOVA X THINK Technical Report

Created by

Haebom

저자

NAVER Cloud HyperCLOVA X Team

개요

HyperCLOVA X THINK는 약 6조 개의 한국어 및 영어 토큰으로 사전 훈련된 최초의 추론 중심 대규모 언어 모델입니다. 목표 합성 한국어 데이터를 추가하고, 계산-메모리 균형을 고려한 Peri-LN Transformer를 μP로 확장하여 구현되었습니다. 128K 토큰까지 문맥 창을 확장하는 3단계 커리큘럼으로 사전 훈련되었고, 검증 가능한 보상으로부터의 강화 학습을 통한 감독식 미세 조정을 거쳤습니다. 상세한 근거와 간결한 답변 모드를 모두 지원하며, KMMLU, CSAT, KoBALT-700, HAERAE-1.0, KoBigBench 등 한국어 중심 벤치마크에서 유사한 크기의 모델에 비해 경쟁력 있는 성능을 보여줍니다. 또한, 양질의 이중 언어 일관성과 번역 품질을 유지하며, 비전 증강 변형은 KCSAT STEM 벤치마크에서 GPT-4.1과 동등하거나 그 이상의 성능을 달성합니다. 기존 유사 규모 모델보다 훨씬 적은 훈련 연산량으로 이러한 성과를 달성했으며, 오픈소스 및 비즈니스 친화적인 기반 모델을 위한 가지치기 및 증류 기술도 제시합니다.

시사점, 한계점

•

시사점:

◦

추론 능력에 초점을 맞춘 대규모 한국어 언어 모델 개발의 성공적인 사례 제시.

◦

기존 모델 대비 낮은 훈련 연산량으로 경쟁력 있는 성능 달성.

◦

한국어 중심 벤치마크에서 우수한 성능.

◦

비전 증강 모델을 통해 STEM 분야에서도 경쟁력 확보.

◦

오픈소스 및 비즈니스 친화적인 모델 개발 계획.

◦

한국어 AI 혁신을 위한 강력한 기반 모델 제공.

•

한계점:

◦

아직 오픈소스로 공개되지 않음 (향후 계획임).

◦

구체적인 가지치기 및 증류 기술에 대한 상세 내용 부족.

◦

합성 데이터 사용에 대한 자세한 설명 부족.

◦

다른 언어에 대한 성능 평가 부족.

Made with Slashpage