Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Aligning Foundation Model Priors and Diffusion-Based Hand Interactions for Occlusion-Resistant Two-Hand Reconstruction

Created by
  • Haebom
Category
Empty

저자

Gaoge Han, Yongkang Cheng, Zhe Chen, Shaoli Huang, Tongliang Liu

개요

단일 카메라 이미지로부터 두 손의 재구성은 복잡하고 역동적인 손 자세와 가림으로 인해 상호 작용 정렬을 달성하는 데 어려움을 겪는다. 기존 방법들은 이러한 정렬 문제로 인해 잘못된 정렬과 관통 아티팩트가 발생한다. 본 논문에서는 기초 모델 기반 2D 사전 정보와 확산 기반 상호 작용 개선을 시너지 효과적으로 통합하여 손 자세와 상호 작용을 정확하게 정렬하려는 새로운 프레임워크를 제안한다. 먼저, 훈련 중에 기초 모델의 다중 모드 사전 정보(키포인트, 분할 맵, 깊이 신호)를 정렬하는 Fusion Alignment Encoder를 도입하여 강력한 구조적 안내를 제공하고, 테스트 시 기초 모델 없이도 높은 재구성 정확도를 유지하면서 효율적인 추론을 가능하게 한다. 둘째, 관통된 자세를 사실적이고 관통되지 않은 상호 작용으로 변환하도록 명시적으로 훈련된 두 손 확산 모델을 사용하여 기울기 기반 잡음 제거를 활용하여 아티팩트를 수정하고 현실적인 공간 관계를 보장한다. 광범위한 평가는 제안된 방법이 InterHand2.6M, FreiHAND 및 HIC 데이터셋에서 최첨단 성능을 달성하여 가림 처리 및 상호 작용 강건성을 크게 향상시킨다는 것을 보여준다.

시사점, 한계점

시사점:
기초 모델 기반 2D 사전 정보와 확산 기반 상호 작용 개선을 결합하여 단일 카메라 이미지로부터의 두 손 재구성 정확도를 크게 향상시켰다.
Fusion Alignment Encoder를 통해 기초 모델 없이도 효율적인 추론이 가능해졌다.
확산 모델을 이용하여 가림과 관통 아티팩트 문제를 효과적으로 해결하였다.
InterHand2.6M, FreiHAND, HIC 데이터셋에서 최첨단 성능을 달성하였다.
한계점:
제안된 방법의 계산 비용이 높을 수 있다.
다양한 조명 조건이나 배경에서의 성능 평가가 부족할 수 있다.
손의 복잡한 상호 작용이나 극단적인 자세에 대한 일반화 성능이 제한적일 수 있다.
👍