CLIP系列学习（四） — CLIP in Medical Imaging | Yixin’s Blog

type

status

date

slug

summary

tags

category

icon

password

CLIP-in-Medical-Imaging

CLIP in medical imaging: A comprehensive survey | 2023.12

notion image

CLIP 在医学影像的应用中自成一派，根据评测效果，BiomedCLIP 和 PubMedCLIP 效果最好。每个数据集也有自己代表性的 CLIP 模型

notion image

PubMedCLIP

https://aclanthology.org/2023.findings-eacl.88/

代码开源，权重也开源

https://huggingface.co/flaviagiammarino/pubmed-clip-vit-base-patch32

训练数据集

文章中提到了两个主要的医学视觉问答（MedVQA）数据集，它们是：

VQA-RAD数据集：

包含315张图像和3,515个英文语言的问题-答案对。

遵循先前工作的分割，测试集中的所有图像也都出现在训练集中，但测试集中的这些问题-答案对在训练集中是未见过的。

SLAKE数据集：

包含642张图像和超过7,000个问题-答案对，数据集中包含英文和中文问题，但本文中只使用了英文子集。

在原始数据分割中，测试集中的所有图像在训练集中是未见过的。

此外，文章还提到了用于训练PubMedCLIP的ROCO数据集：

包含超过80,000个样本，涵盖多种成像方式，如超声波、X射线、PET扫描、CT扫描、MRI、血管造影等，来自人体的不同部位，例如头部、颈部、脊柱、胸部、腹部、手、脚、膝盖和骨盆等。

文本来自PubMed文章中与图像相关的相对较短的标题（平均长度为20个单词），提供了关于图像内容的丰富解释性信息。

这些数据集为PubMedCLIP模型的训练和评估提供了丰富的医学图像和文本对，使其能够在医学视觉问答任务中取得良好的性能。

notion image

其他的训练方式和任务构造方式都和 CLIP 一样

微调还是从 0 训练？

微调

BioMedCLIP

paper: https://arxiv.org/abs/2303.00915

huggingface: https://huggingface.co/microsoft/BiomedCLIP-PubMedBERT_256-vit_base_patch16_224

notion image

这篇论文的标题是“BiomedCLIP: a multimodal biomedical foundation model pretrained from fifteen million scientific image-text pairs”，主要介绍了一个基于大规模科学文章中的图像-文本对预训练的多模态生物医学基础模型BiomedCLIP。以下是论文中提到的数据集和数据量的信息：

数据集和数据量

PMC-15M

这是一个新创建的数据集，包含1500万个生物医学图像-文本对，这些数据来自4.4百万篇科学文章。

数据集的规模是现有生物医学多模态数据集（如MIMIC-CXR）的两个数量级大。

覆盖了三十多种主要的生物医学图像类型，为生物医学研究和临床实践提供了一个多样化和具有代表性的数据库。

PMC-Fine-Grained-46M

通过将PMC-15M中的每个科学图表分割成单独的小图来创建，包含4600万个图像-文本对。

这个数据集用于进一步细化图像类别的分布和覆盖范围。

数据集的多样性和覆盖范围

图像类型：PMC-15M中包含的图像类型非常多样化，从一般的生物医学插图（如统计图表、流程图）到放射影像（如磁共振、计算机断层扫描、X光）再到数字病理和显微镜图像（如光学显微镜、电子显微镜）等。

重新训练还是微调？

重新训练的，换了 backbone，把 backbone 换成了医疗领域特定的 text-encoder

notion image

Author:Yixin Huang
URL:https://yixinhuang.cn/article/clip_in_medical_imaging
Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!

CLIP系列学习（五）— PyramidCLIP CLIP系列学习（三） — LongCLIP

Loading...

Catalog

0%

Yixin Huang

一个热爱生活的算法工程师

Latest posts

时间序列论文阅读 — TimeCMA（AAAI 2025）

时间序列论文阅读-ChatTime: A Unified Multimodal Time Series Foundation Model Bridging

VLM系列论文阅读-Mixed Preference Optimization (MPO)

VLM系列论文阅读 — Flamingo

认识你自己，才是这件事的最终乐趣 — 抄录

用GPT4学量化投资 — Junior Level - Unit 1: Introduction to Stock Markets and Data Handling

Announcement

🎉NotionNext 4.5已经上线🎉

-- 感谢您的支持 ---

👏欢迎更新体验👏

Catalog

0%