本論文は、心臓機能の評価に使用される超音波画像解析を自動化するためのビデオ言語モデルを開発した研究です。既存の医療ビデオ - 言語モデルは、単一のフレーム(画像)入力に依存して、心臓の動きによってのみ診断可能な疾患の精度を低下させる限界を克服するために、5つの標準ビューの全超音波ビデオシーケンスを処理するモデルを提示します。 60,747の超音波ビデオ - レポートペアで学習されたこのモデルは、ビデオ入力とマルチビューサポートによる検索パフォーマンスの向上、およびさまざまな事前学習モデルの貢献度を評価します。