Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Vision without Images: End-to-End Computer Vision from Single Compressive Measurements

Created by
  • Haebom

作者

Fengpu Pan, Heting Gao, Jiangtao Wen, Yuxing Han

概要

本論文は、低照度および低SNR条件で性能低下を示す従来のSnapshot Compressed Imaging(SCI)技術の限界を克服するために、8 x 8サイズの擬似ランダムバイナリマスクを使用する新しいSCIベースのコンピュータビジョンフレームワークを提示します。コアは、イメージの再構成なしにエッジ検出や深さ推定などのフォローアップを直接実行するように設計されたSTFormerアーキテクチャベースのCompressive Denoising Autoencoder(CompDAE)です。 CompDAEは、BackSlashにインスピレーションを得たrate-constrained training戦略を統合して圧縮可能なモデルを生成し、軽量のtask-specific decoderと共有エンコーダを使用して統合されたマルチタスクプラットフォームを提供します。さまざまなデータセットの実験の結果、CompDAEは、特に既存のCMOSパイプラインとSCIパイプラインが失敗する超低照度条件で、かなり低い複雑さで最先端のパフォーマンスを達成することを示しています。

Takeaways、Limitations

Takeaways:
低照度および低SNR条件で優れた性能を示す新しいSCIベースのコンピュータビジョンフレームワークの提示。
ハードウェアの実装が容易な小さなサイズのマスクを使用。
画像再構成なしで後続の作業(エッジ検出、深さ推定など)を直接実行できます。
マルチタスクのための統合プラットフォームを提供します。
従来の方法と比較して低い複雑さで最先端の性能を達成
Limitations:
8×8サイズのマスク使用による解像度劣化の可能性。
特定のデータセットの実験結果のみが提示され、一般化パフォーマンス検証が必要です。
BackSlashからインスピレーションを得たレート制約されたトレーニング戦略の具体的な内容と効果の追加の説明が必要です。
👍