本論文は、コンピュータ病理学の分野における人間の健康、認知および知覚能力を向上させるデジタル技術の発展に焦点を当てている。 Vision Transformer(ViT)とGPT-2を組み合わせたマルチモーダルモデルを用いて組織病理学的画像解析を改善する新しい方法を提示した。このモデルは、臨床および学術データから派生した密集した画像キャプションを含む特別なARCHデータセットに微調整され、組織形態、染色の変化、および病理学的状態などの病理学的画像の複雑さを捉える。正確でコンテキストに合ったキャプションを作成して、医療専門家の認知能力を向上させ、病気の分類、分割、および検出をより効率的に行うことができます。さらに、微細な病理学的特徴を検出して診断精度を向上させる。この方法は、医療画像分析における人間の認知能力を向上させるデジタル技術の可能性を示し、より個人化され正確な医療結果のためのステップを提供する。