Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Depth-Guided Self-Supervised Human Keypoint Detection via Cross-Modal Distillation

Created by
  • Haebom

作者

Aman Anand, Elyas Rashno, Amir Eskandari, Farhana Zulkernine

概要

従来の非マップキーポイント検出方法は、画像のかなりの部分をマスクするか、元の画像再構成を学習目標として使用するなど、人工的な変形を適用します。しかしながら、このアプローチは画像の深さ情報を欠いており、しばしば背景にキーポイントを検出するという問題がある。この論文では、これを解決するために、深度マップとRGB画像を活用して磁気マップ方式でキーポイントを検出する新しいクロスモーダル知識蒸留フレームワークであるDistill-DKPを提案します。 Distill-DKPは、学習過程で深さベースの教師モデルから埋め込みレベルの知識を抽出し、画像ベースの学生モデルを導き、学生モデルにのみ推論を制限します。実験の結果、Distill-DKPはHuman3.6Mデータセットの平均L2誤差を47.15%減少させ、Taichiデータセットの平均平均誤差を5.67%減少させ、DeepFashionデータセットのキーポイント精度を1.3%向上させるなど、従来の非マップ学習方法を大幅に上回る性能を示しました。詳細なablation studyを通して、ネットワークの様々な層における知識蒸留の感度を示す。

Takeaways、Limitations

Takeaways:
奥行き情報を活用することで、非マップキーポイント検出の精度を大幅に向上させることができることを示しています。
クロスモーダル知識蒸留フレームワークを通じて教師モデルの知識を効果的に Student モデルに伝達する方法を提示します。
Human3.6M、Taichi、DeepFashionデータセットで従来の方法と比較して優れた性能を達成。
Limitations:
提示された方法の一般化性能に関するさらなる研究が必要である。
さまざまな種類の画像データのパフォーマンス評価が必要です。
知識蒸留の最適層とハイパーパラメータの設定に関するさらなる研究が必要
👍