type
status
date
slug
summary
tags
category
icon
password
CLIP-in-Medical-Imaging

CLIP 在医学影像的应用中自成一派,根据评测效果,BiomedCLIP 和 PubMedCLIP 效果最好。每个数据集也有自己代表性的 CLIP 模型

PubMedCLIP
代码开源,权重也开源
训练数据集
文章中提到了两个主要的医学视觉问答(MedVQA)数据集,它们是:
- VQA-RAD数据集:
- 包含315张图像和3,515个英文语言的问题-答案对。
- 遵循先前工作的分割,测试集中的所有图像也都出现在训练集中,但测试集中的这些问题-答案对在训练集中是未见过的。
- SLAKE数据集:
- 包含642张图像和超过7,000个问题-答案对,数据集中包含英文和中文问题,但本文中只使用了英文子集。
- 在原始数据分割中,测试集中的所有图像在训练集中是未见过的。
此外,文章还提到了用于训练PubMedCLIP的ROCO数据集:
- 包含超过80,000个样本,涵盖多种成像方式,如超声波、X射线、PET扫描、CT扫描、MRI、血管造影等,来自人体的不同部位,例如头部、颈部、脊柱、胸部、腹部、手、脚、膝盖和骨盆等。
- 文本来自PubMed文章中与图像相关的相对较短的标题(平均长度为20个单词),提供了关于图像内容的丰富解释性信息。
这些数据集为PubMedCLIP模型的训练和评估提供了丰富的医学图像和文本对,使其能够在医学视觉问答任务中取得良好的性能。

其他的训练方式和任务构造方式都和 CLIP 一样
微调还是从 0 训练?
- 微调
BioMedCLIP

这篇论文的标题是“BiomedCLIP: a multimodal biomedical foundation model pretrained from fifteen million scientific image-text pairs”,主要介绍了一个基于大规模科学文章中的图像-文本对预训练的多模态生物医学基础模型BiomedCLIP。以下是论文中提到的数据集和数据量的信息:
数据集和数据量
- PMC-15M
- 这是一个新创建的数据集,包含1500万个生物医学图像-文本对,这些数据来自4.4百万篇科学文章。
- 数据集的规模是现有生物医学多模态数据集(如MIMIC-CXR)的两个数量级大。
- 覆盖了三十多种主要的生物医学图像类型,为生物医学研究和临床实践提供了一个多样化和具有代表性的数据库。
- PMC-Fine-Grained-46M
- 通过将PMC-15M中的每个科学图表分割成单独的小图来创建,包含4600万个图像-文本对。
- 这个数据集用于进一步细化图像类别的分布和覆盖范围。
数据集的多样性和覆盖范围
- 图像类型:PMC-15M中包含的图像类型非常多样化,从一般的生物医学插图(如统计图表、流程图)到放射影像(如磁共振、计算机断层扫描、X光)再到数字病理和显微镜图像(如光学显微镜、电子显微镜)等。
重新训练还是微调?
- 重新训练的,换了 backbone,把 backbone 换成了医疗领域特定的 text-encoder

- Author:Yixin Huang
- URL:https://yixinhuang.cn/article/clip_in_medical_imaging
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!




