Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Prompt Guidance and Human Proximal Perception for HOT Prediction with Regional Joint Loss

Created by
  • Haebom

作者

Yuxiao Wang, Yu Lei, Zhenao Wei, Weiying Xue, Xinyu Jiang, Nan Zhuang, Qi Liu

概要

この論文では、人物接触(HOT)検出のための新しいフレームワークであるP3HOTを提案します。 P3HOTはプロンプトガイダンスと人間の近接認識を組み合わせて、画像とテキストの間の相関関係に基づいてネットワークの注意を関連領域に導き、学習可能なパラメータを使用して相互作用が予想されない領域を効果的に排除します。奥行き情報を活用して、2D観点から人と物体間の重なりに対する不確実性を解決し、準3D視点を提供し、領域別共同損失(RJLoss)を導入して、同一領域内の異常なカテゴリを抑制します。さらに、既存の方法の欠点を解決するために、新たな評価指標「AD-Acc.」を提案する。実験は、2つのベンチマークデータセットの4つの指標すべてが最先端のパフォーマンスを達成することを示しています。特にHOT-Annotatedデータセットでは、SC-Acc.、mIoU、wIoU、AD-Acc。指標では、それぞれ0.7、2.0、1.6、11.0の改善を達成しました。ソースコードはhttps://github.com/YuxiaoWang-AI/P3HOTで確認できます。

Takeaways、Limitations

Takeaways:
プロンプトガイドと人間の近接認識を組み合わせた新しいHOT検出フレームワークP3HOTの提示
奥行き情報を活用して2Dの限界を克服し、準3D視点を提供
地域別共同損失(RJLoss)による異常なカテゴリー抑制
新しい評価指標AD-Acc。提案と既存の方法に対するパフォーマンスの向上
さまざまな指標で最先端のパフォーマンスを達成
Limitations:
提案された方法の一般化性能の追加検証が必要
さまざまな種類の画像やオブジェクトのロバースト性評価が必要
特定のデータセットに対する過適合性の見直しが必要
👍