基于记忆驱动的多模态医学影像报告自动生成研究

Research on automatic generation of multimodal medical image reports based on memory driven

素霞邢 , ^{^*

俊泽方

,
^{子涵鞠

,
^{正郭

,
^{and

瑜王}}}}

素霞邢

北京工商大学人工智能学院（北京 100048）, School of Artificial Intelligence, Beijng Technology and Business University, Beijng 100048, P. R. China

Find articles by 素霞邢

俊泽方

北京工商大学人工智能学院（北京 100048）, School of Artificial Intelligence, Beijng Technology and Business University, Beijng 100048, P. R. China

Find articles by 俊泽方

子涵鞠

北京工商大学人工智能学院（北京 100048）, School of Artificial Intelligence, Beijng Technology and Business University, Beijng 100048, P. R. China

Find articles by 子涵鞠

正郭

北京工商大学人工智能学院（北京 100048）, School of Artificial Intelligence, Beijng Technology and Business University, Beijng 100048, P. R. China

Find articles by 正郭

瑜王

北京工商大学人工智能学院（北京 100048）, School of Artificial Intelligence, Beijng Technology and Business University, Beijng 100048, P. R. China 北京工商大学人工智能学院（北京 100048）, School of Artificial Intelligence, Beijng Technology and Business University, Beijng 100048, P. R. China

Corresponding author.

素霞邢: moc.361@aixusgnix

邢素霞，Email： moc.361@aixusgnix

式中， equation M1 和 equation M2 分别代表真实标签和预测标签，其中 equation M3 ， equation M4 ， t 为标签个数。采用词嵌入词典对视觉特征编码器生成的标签进行编码，该词典使用医学文本进行预训练。编码后的标签词向量与标签概率分布相乘得到标签词嵌入。

1.3. 语义特征编码器

医学影像报告通常文本较长，包含丰富的疾病信息内容。基于transformer的双向编码模型（bidirectional encoder representations from transformers，BERT）具有强大的语义理解能力以及迁移学习优势，其双向transformer的结构可以捕捉文本之间的长距离关系，有助于解决医学影像报告长文本的理解问题 ^{[

21

]} 。因此，本文选用BERT作为语义特征编码器对患者病史信息进行编码。

在使用BERT模型提取病史信息的语义特征过程中，移除模型中每个序列的特殊分类嵌入标记，直接使用最后一个隐藏层的全部输出作为语义特征，更完整地保留语义信息，且有利于解码器中注意力机制对语义特征的理解。

1.4. 基于记忆驱动的解码器

蒸馏生成式预训练transformer（distil generative pre-trained transformer，distilGPT-2）对预训练生成式transformer（generative pre-trained transformer，GPT-2）进行了知识蒸馏，在保持模型性能基本不变的前提下削减了34%的参数，从而有效提升模型训练和推理的效率，使模型可以在相对较低的计算资源下生成高质量的医学影像报告，因此本文选择distilGPT-2作为解码器，用于生成完整的医学影像报告 ^{[

22

]} 。此外，在医学影像报告自动生成任务中需要考虑大量专业背景知识，以确保生成的报告完整准确。记忆驱动模块可以从真实报告中提取重要的片段和关键词，使解码器能够更好地关注并记录关键特征，从而提升生成报告的准确性和专业性 ^{[

23

]} 。基于记忆驱动的解码器结构如图2 所示。

An external file that holds a picture, illustration, etc. Object name is swyxgcxzz-41-1-60-2.jpg

Open in a separate window

图 2

Memory-driven decoder architecture

基于记忆驱动的解码器结构图

记忆驱动模块通过记忆矩阵 M 记录医学影像报告中经常出现的医学术语和表述方式，并随着模型训练不断进行更新。在 t 时刻，上一时刻的记忆矩阵 M _{t

− 1} 作为记忆驱动模块的输入，真实报告词嵌入 X 通过MHA输入到记忆矩阵中，MHA的输出 Z _{t

− 1} 如式(2)所示：

其中，柔性最大（softmax）作为归一化指数函数，T为转置符号， X _{t

− 1} 为上一步输出的嵌入，［ M _{t

− 1} ; X _{t

− 1} ］是 M _{t

− 1} 和 X _{t

− 1} 的点积拼接， equation M5 在第0时刻随机初始化参数， L _m 和 D 分别为记忆矩阵的长度和维度，且与报告词嵌入维度一致， equation M7 、 equation M8 、 equation M9 为参数矩阵，MHA中记忆矩阵作为查询矩阵（query，Q）（以符号 Q 表示），记忆矩阵与医学影像报告拼接作为键矩阵（key，K）（以符号 K 表示）和值矩阵（value，V）（以符号 V 表示）。与transformer结构类似，在注意力层后加入前馈神经网络，并采用残差连接，以提高模型的拟合能力，避免出现梯度消失和梯度爆炸 ^{[

7

]} 。随着模型训练的进行，医学影像报告中的信息会不断更新到记忆矩阵中，然而这种迭代更新的方式容易导致之前信息被覆盖，并产生无用的冗余信息，对模型性能造成负面影响。对此，记忆驱动模块引入门机制来决定哪些信息应该保留或更新 ^{[

24

]} 。

如图2 所示，使用条件归一化替代原distilGPT-2解码器中的层归一化，通过学习参数的变化量而非参数本身来提高模型的泛化性，并防止其影响过多的模型参数进而影响核心信息的生成。

在解码器中将视觉特征、编码后的预测标签概率和语义特征在空间维度进行拼接作为多模态特征。使用字节对编码（byte pair encoding，BPE）的方式对真实报告进行编码，在序列起始与末尾处分别添加相应标记，并使用补零操作将向量填充至最大序列长度。真实报告经词嵌入后同多模态特征一起输入到distilGPT-2的MHA。MHA由 n 个头组成，且每个头中使用归一化的点乘注意力，如式(3)所示：

其中，Att _i (·)（ i =1, ···, n ）为每个头使用的归一化点乘注意力，MHA(·) 为MHA最终的输出， equation M10 是词嵌入后的真实报告， L _x 是真实的序列长度，按每个批大小中的最大长度填充， F 是视觉特征、编码后的预测标签概率和语义特征拼接后的多模态特征， equation M11 、 equation M12 、 equation M13 、 equation M14 均为可训练参数。真实报告作为 Q ，多模态特征与真实报告拼接作为 K 和 V 输入distilGPT-2，令模型有效关注和理解特征中蕴含的多模态信息。解码器使用真实报告单词和预测单词间的交叉熵作为损失函数，并对所有单词的损失取平均值，损失函数 L _G 如式(4)所示：

其中， equation M15 和 equation M16 分别代表真实报告和预测标签，其中， equation M17 ， equation M18 ， l 为报告长度， m 是词嵌入词典大小。最终，模型以端到端的形式训练，损失函数为标签分类损失函数 L _T 与解码器损失函数 L _G 之和。

1.5. 迁移学习

与自然图像相比，医学影像获取和标注成本较高，受患者隐私等因素限制，高质量的大规模医学影像数据难以获取，模型性能依然存在较大提升空间。迁移学习方法将在大规模数据集中训练的模型应用于下游任务，为模型提供丰富的先验特征，有效降低对数据量的依赖。

本文使用在自然图像和文本数据中预训练的模型参数初始化多视角视觉编码器、语义编码器和解码器三部分，具体步骤如下：① 分别获取在自然图像数据集中训练的Swin-Transformer、医学文本数据库预训练的BERT和网页文本数据集预训练的distilGPT2模型参数 ^{[

25

]} 。② 针对本文模型调整预训练参数，医学影像是通道数为1的灰度图像，需将Swin-Transformer模型第一个卷积层输入通道数设置为1且不进行迁移。多模态特征通过注意力层输入distilGPT2，为避免预训练参数对输入特征造成影响，仅初始化真实报告相关的权重参数。③ 移除预训练模型分类器，使用模型主干初始化本文模型各部分，分类器和其他参数使用随机初始化。④ 在医学影像报告数据集中训练迁移后的模型，并对迁移部分使用更小学习率，有助于在训练过程中保留先验信息，促进模型学习新特征。

2. 数据处理和评价指标

2.1. 数据处理

在数据清洗和预处理阶段，只保留包含正、侧面两视角影像以及完整的病史信息、报告内容和相关标签的样本。报告和病史均转换为小写，删除其中涉及患者个人信息的单词，只生成“发现”部分的报告内容 ^{[

26

]} 。对IU X-Ray中的标签进行合并和去重，并删除正样本数小于25的标签 ^{[

11

]} ，最终得到105个标签，按7∶2∶1划分训练集、验证集和测试集。MIMIC-CXR中将不确定的标签统一作为正类，以降低漏诊几率，按官方提供的划分方式划分数据集。

2.2. 评价指标

本文采用广泛应用于自然语言生成领域的评价指标来评估模型生成的医学影像报告质量。这些指标包括：双语互译质量评估辅助工具（bilingual evaluation understudy-ngram，BLEU- n ）、生成单词的最长公共子序列的召回率（recall-oriented understudy for gisting evaluation-longest common subsequence，ROUGE-L）和显式顺序翻译评价指标（metric for evaluation of translation with explicit ORdering，METEOR） ^{[

27

-

29

]} ，得分越高代表生成报告的质量越高。

其中，BLEU- n 通过 N 元模型（ n -grams）划分文本，计算生成报告与真实报告间划分文本的共现程度，从而衡量生成报告的总体水平，划分较少的文本数量可以反映生成报告的准确性，较高则更能体现生成报告的流畅性。ROUGE-L通过比较生成文本和真实文本之间最长公共子序列的长度，以及这个长度在真实文本中的最大可能长度，量化生成文本与真实文本之间的相似度。METEOR根据同义词、词干和复述计算两个句子的相似度，能够准确反映生成文本的质量。

3. 实验结果与分析

3.1. 实施细节

在训练过程中，所有医学影像被缩小至384 × 384大小，在每张影像训练前进行随机裁剪、随机旋转、灰度变换等数据增强，确保每次训练的输入数据都具有一定的差异性，以模拟临床真实情景。使用自适应矩估计优化器（adaptive moment estimation，Adam）优化模型，权重衰减为5 × 10 ⁻⁵ ，初始学习率为1 × 10 ⁻³ ，并采用余弦退火学习率衰减 ^{[

30

]} ，批大小设置为4，IU X-Ray和MIMIC-CXR数据集分别在模型中训练100轮次和20轮次。IU X-Ray数据集验证和测试阶段使用束宽（beam size）为5的束搜索策略生成报告，在样本全部训练5轮时，在验证集中进行一次测试，并选择BLEU- n （ n = 1, 2, 3, 4）得分最高的模型用于测试集。

本研究编程语言为Python3.7（Python Software Foundation，荷兰），深度学习框架是PyTorch（Facebook，美国），图形处理器（graphics processing unit，GPU）硬件为NVIDIA GeForce RTX 3090（NVIDIA，美国）。

3.2. 定量分析

mMIRmd模型训练过程曲线如图3 所示，其中IU X-Ray 数据集共训练100轮次，每5轮次记录一次；MIMIC-CXR数据集共训练20轮次，每1轮次记录一次。随着训练的进行，模型各项指标准确率逐渐提升，最终趋于收敛。在IU X-Ray和MIMIC-CXR 数据集上BLEU-1、BLEU-2、BLEU-3、BLEU-4、ROUGE-L和METEOR最高分别达到0.492、0.379、0.320、0.265、0.407、0.236和0.467、0.358、0.281、0.245、0.382、0.211。

An external file that holds a picture, illustration, etc. Object name is swyxgcxzz-41-1-60-3.jpg

Open in a separate window

图 3

Training process curves in IU X-Ray and MIMIC-CXR datasets

IU X-Ray和MIMIC-CXR数据集训练过程曲线

如表1 所示，为验证mMIRmd模型的有效性和泛化性，与CNN-RNN ^{[

7

]} 、transformer ^{[

12

]} 以及基于transformer的HN ^{[

14

]} 、PPKED ^{[

15

]} 、SGF ^{[

16

]} 、AlignTransformer ^{[

17

]} 、使用记忆存储器的CMN ^{[

18

]} 在IU X-Ray和MIMIC-CXR数据集中的结果进行对比，加粗字体代表最优性能。

表 1

Quantitative comparison of report generation performance of mMIRmd model

mMIRmd模型生成报告性能定量表

数据集	模型	BLEU-1	BLEU-2	BLEU-3	BLEU-4	ROUGE-L	METEOR
IU X-Ray	CNN-RNN	0.316	0.211	0.140	0.095	0.267	0.157
	transformer	0.414	0.262	0.183	0.137	0.335	0.172
	HN	0.464	0.301	0.212	0.158	—	—
	PPKED	0.483	0.315	0.224	0.168	0.376	—
	CMN	0.475	0.309	0.222	0.170	0.375	0.191
	SGF	0.467	0. 334	0.261	0.215	0.415	0.201
	AlignTransformer	0.484	0.313	0.225	0.173	0.379	0.204
	多模态模型	0.485	0.369	0.295	0.254	0.401	0.228
	mMIRmd	0.492 0.379 0.320 0.265 0.407 0.236
MIMIC-CXR	CNN-RNN	0.299	0.184	0.121	0.084	0.263	0.124
	transformer	0.314	0.192	0.127	0.090	0.265	0.125
	PPKED	0.360	0.224	0.149	0.106	0.284	0.149
	CMN	0.353	0.218	0.148	0.106	0.278	0.142
	AlignTransformer	0.378	0.235	0.156	0.112	0.283	0.158
	多模态模型	0.459	0.351	0.273	0.241	0.376	0.207
	mMIRmd	0.467 0.358 0.281 0.245 0.382 0.211

Open in a separate window

本文模型在两个数据集的所有评价指标中均取得了最高分。其中，BLEU-3、BLEU-4得分显著超过其他方法，证明本文模型在文本流畅性上的优势。BLEU-1、BLEU-2、ROUGE-L、METEOR得分同样高于其他方法，证明多模态特征融合方法能够更好关注疾病区域，生成正确的标签信息，使报告各项指标有明显提升。

在多模态模型基础上，引入记忆驱动组成mMIRmd模型后，模型的所有评价指标得分均有提升，证明记忆驱动模块和条件归一化对于提高模型生成报告的质量起到了积极作用，记忆驱动模块记录的关键信息有效提升数据的长距离依赖性，使得报告准确性和流畅性均得到一定程度的提升。

3.3. 消融实验

消融实验包括单视角影像（single vision，SV）、多视角影像（multi-perspective vision， MV）、疾病标签（disease tag，T）、病史信息（medical history information，I）四种模态单独或组合输入解码器。如表2 所示，使用多视角影像结合疾病标签和病史信息的方法（MV+T+I），在所有评价指标上取得了最高分，以加粗字体显示。与单视角影像输入相比，多视角影像包含更全面的视觉特征，从而显著提升了所有评价指标得分。添加疾病标签有助于引导模型生成正确的报告，对生成的医学影像报告精度起到积极作用，BLEU-1、BLEU-2和BLEU-3得分均有小幅提升。病史信息为模型提供了多模态输入，大幅提升了模型的所有评价指标。这表明病史信息与当前疾病状态存在密切联系，多模态特征提取和融合对医学影像报告准确性和流畅性的提升起到了显著效果。

表 2

Ablation experiment

消融实验

模态	BLEU-1	BLEU-2	BLEU-3	BLEU-4	ROUGE-L	METEOR
疾病标签	0.221	0.133	0.089	0.059	0.267	0.118
单视角影像	0.376	0.238	0.172	0.129	0.284	0.156
多视角影像	0.411	0.293	0.216	0.176	0.332	0.190
多视角影像+疾病标签	0.418	0.301	0.219	0.176	0.330	0.191
MV+T+I	0.485 0.369 0.295 0.254 0.401 0.228

Open in a separate window

3.4. 迁移学习实验结果

迁移学习对模型性能的影响实验在IU X-Ray数据集中进行。如表3 所示，展示了Swin-Transformer ^{[

20

]} 、101层深度残差网络（residual network 101，ResNet101） ^{[

31

]} 、121层稠密连接卷积网络（densely connected convolutional networks 121，Densenet121） ^{[

32

]} 、视觉transformer（vision transformer） ^{[

33

]} 4种模型在迁移学习前后对多标签分类的结果，实验以单张影像作为输入。观察实验结果可知，即使自然图像与医学影像间存在较大差异，自然图像预训练的模型迁移学习至医学影像任务中仍能有效提升模型特征提取性能。与CNN模型相比，transformer模型提升幅度更大，使用迁移学习训练的Swin-Transformer在相同模型体量下获得了最高得分，以加粗字体显示。

表 3

The impact of transfer learning on the performance of model image feature extraction

迁移学习对模型图像特征提取性能影响

模型	未经迁移	自然图像
ResNet101	0.559	0.589
DenseNet121	0.561	0.598
vision transformer	0.556	0.774
Swin-Transformer	0.584	0.786

Open in a separate window

语义编码器BERT和解码器distilGPT2的迁移学习效果以生成医学影像报告的质量为标准，实验结果如表4 所示，分别为随机初始化模型参数（initialized without，w/o）、自然文本预训练（pre-trained，Pre）参数迁移学习和医学文本（biomedical text pre-trained，Bio）迁移学习，最佳结果以加粗字体显示。

表 4

The impact of transfer learning on the performance of semantic encoders and decoders

迁移学习对语义编码器和解码器的性能影响

模型		BLEU-1	BLEU-2	BLEU-3	BLEU-4	ROUGE-L	METEOR
BERT	distilGPT2	BLEU-1	BLEU-2	BLEU-3	BLEU-4	ROUGE-L	METEOR
w/o	Pre	0.443	0.323	0.259	0.218	0.374	0.212
Pre	Pre	0.469	0.349	0.286	0.247	0.397	0.226
Bio	w/o	0.483	0.357	0.271	0.226	0.387	0.204
Bio	Pre	0.485 0.369 0.295 0.254 0.401 0.228

Open in a separate window

如表4 所示，语义编码器BERT使用迁移学习能够提升病史信息特征提取质量，模型生成的医学影像报告在所有评价指标中均获得更高得分，使用医学文本预训练的BERT更有助于模型理解医学相关术语和表达，报告质量得到进一步提升。在解码器distilGPT2中使用迁移学习的方法令BLEU-1得分有小幅提升，BLEU-2、BLEU-3、BLEU-4、ROUGE-L和METEOR的提升幅度更大，表明预训练模型能够使生成的报告更加流畅，这得益于迁移学习带来的丰富先验知识，模型通过自然文本学习相关语法和表达方式，经医学影像报告的微调，生成更贴近人类表达习惯的报告内容。

3.5. 定性分析

如图4 所示，展示了输入的正、侧面医学影像、mMIRmd模型的异常区域可视化、真实报告和两种模型生成的部分医学影像报告，加粗字体代表正确描述的部分，红色字体为加入记忆驱动模块后额外生成的正确描述，使用梯度定位的深层网络可视化方法（gradient-weighted class activation mapping，Grad-CAM） ^{[

34

]} ，并与未加入记忆驱动的多模态模型进行对比。观察实验结果可知，多模态模型能够重点关注异常区域。例如，模型对“脊柱退行性改变（degenerative changes are in the spine）”等疾病能够正确判断，也能生成“局灶性（focal）”等对疾病状态的描述，证明了模型的有效性。然而对“轻度主动脉弯曲（there is mild tortuosity to the descending thorcic aorta）”等早期或性状不明显的病变难以准确识别，且与真实报告相比，生成的报告在疾病的描述方式上仍存在一定差异。

An external file that holds a picture, illustration, etc. Object name is swyxgcxzz-41-1-60-4.jpg

Open in a separate window

图 4

Qualitative comparison of report generation performance of mMIRmd model

定性比较mMIRmd模型生成报告性能

mMIRmd模型能够正确生成“空腔疾病（airspace disease）”、“肺血管系统（pulmonary vascularity）”等专业医学术语，生成报告在表述专业性和语言逻辑性方面有所提升，对正常器官的描述也更加全面，例如能正确处理“局灶性（focal）”和“胸腔积液（pleural effusion）”间的修饰关系，证明了记忆驱动的有效性。与多模态模型相比，mMIRmd模型生成的“心脏大小和肺血管分布在正常范围内（heart size and pulmonary vascularity appear within normal limits）”能够对位置进行准确描述，但没有对“轻度主动脉弯曲（there is mild tortuosity to the descending thorcic aorta）”进行说明。同时，mMIRmd模型生成的报告与真实报告长度更加贴合，语句也更加通顺流畅。由此可见，模型生成报告的精度有所提升，能够清晰地表达出大部分病变的具体位置和属性，通过异常区域可视化也显示模型生成报告时能正确关注有意义的区域，但对情况复杂的患病情况以及特征不明显疾病的识别和判断仍然存在欠缺。

4. 结论

针对医学影像疾病类型多样、报告描述缺乏专业性和流畅性等问题开展医学影像报告自动生成研究，本文提出mMIRmd模型，通过多模态特征融合和记忆驱动的方法，有效提升生成报告的质量，异常区域可视化的引入进一步增强了模型的可解释性，能够反映疾病所在的具体位置。

本文的主要工作包括以下三方面：① 设计了一种能够同时提取医学影像视觉特征、病史信息语义特征以及融合编码后标签概率的多模态融合模型，提高了模型识别病变的能力。② 在Swin-Transformer编码器中使用医学文本预训练的词典对视觉特征标签进行编码，提高了生成报告的专业性。③ 通过在distilGPT-2解码器中加入记忆驱动模块，解决了医学影像数据的长依赖关系，提高了报告生成的流畅性。然而，与医生撰写的报告相比，生成报告在患病细节的描述方面仍然存在一些欠缺，模型的疾病识别能力和泛化能力仍有提升空间。

重要声明

利益冲突声明：本文全体作者均声明不存在利益冲突。

作者贡献声明：邢素霞主要负责论文思路和实验设计；方俊泽主要负责算法实现和论文写作；鞠子涵主要负责实验设计和平台搭建；郭正、王瑜主要负责论文修订和分析记录。

Funding Statement

国家自然科学基金项目（61671028）；北京市自然科学基金项目（KZ202110011015）

Funding Statement

National Natural Science Foundation of China; Beijing Municipal Education Commission

References

1. 张物华, 李锵, 关欣基于多尺度卷积神经网络的X光图像中肺炎病灶检测激光与光电子学进展 2020; 57 (8):179–186. [ Google Scholar ]

2. 黄欣, 方钰, 顾梦丹基于卷积神经网络的 X 线胸片疾病分类研究系统仿真学报 2020; 32 (6):1188–1194. [ Google Scholar ]

3. Messina P, Pino P, Parra D, et al. A survey on deep learning and explainability for automatic report generation from medical images. ACM Computing Surveys, 2020, arXiv: 2010.10563.

4. Rajpurkar P, Irvin J, Zhu K, et al. CheXNet: radiologist-level pneumonia detection on chest X-rays with deep learning. arXiv preprint, 2017, arXiv: 1711.05225.

5. Demner-Fushman D, Kohli M D, Rosenman M B, et al Preparing a collection of radiology examinations for distribution and retrieval. Journal of the American Medical Informatics Association. 2016; 23 (2):304–310. doi: 10.1093/jamia/ocv080. [ PMC free article ] [ PubMed ] [ CrossRef ] [ Google Scholar ]

6. Vinyals O, Toshev A, Bengio S, et al. Show and tell: a neural image caption generator//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, IEEE, 2015: 3156-3164.

7. Li C Y, Liang X, Hu Z, et al. Hybrid retrieval-generation reinforced agent for medical image report generation//Proceedings of the 32nd International Conference on Neural Information Processing Systems(NIPS’18), 2018: 1537-1547.

8. Han K, Wang Y, Chen H, et al A survey on vision transformer. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2023; 45 (1):87–110. doi: 10.1109/TPAMI.2022.3152247. [ PubMed ] [ CrossRef ] [ Google Scholar ]

9. He X, Yang Y, Shi B, et al VD-SAN: visual-densely semantic attention network for image caption generation. Neurocomputing. 2019; 328 :48–55. doi: 10.1016/j.neucom.2018.02.106. [ CrossRef ] [ Google Scholar ]

10. Alfarghaly O, Khaled R, Elkorany A, et al Automated radiology report generation using conditioned transformers. Informatics in Medicine Unlocked. 2021; 24 :100557. doi: 10.1016/j.imu.2021.100557. [ CrossRef ] [ Google Scholar ]

11. Valanarasu J M J, Oza P, Hacihaliloglu I, et al. Medical transformer: gated axial-attention for medical image segmentation//Medical Image Computing and Computer Assisted Intervention (MICCAI 2021), Springer, 2021: 36-46.

12. Hou B, Kaissis G, Summers R M, et al. Ratchet: medical transformer for chest X-ray diagnosis and reporting//Medical Image Computing and Computer Assisted Intervention (MICCAI 2021), Springer, 2021: 293-303.

13. Srinivasan P, Thapar D, Bhavsar A, et al. Hierarchical X-ray report generation via pathology tags and multi head attention//Proceedings of the Asian Conference on Computer Vision (ACCV 2020), Springer, 2020: 600-616.

14. Liu F, Wu X, Ge S, et al. Exploring and distilling posterior and prior knowledge for radiology report generation// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, IEEE, 2021: 13753-13762.

15. Li J, Li S, Hu Y, et al. A self-guided framework for radiology report generation//Medical Image Computing and Computer Assisted Intervention (MICCAI 2022), Springer, 2022: 588-598.

16. You D, Liu F, Ge S, et al. Aligntransformer: Hierarchical alignment of visual regions and disease tags for medical report generation.//Medical Image Computing and Computer Assisted Intervention (MICCAI 2021), Springer, 2021: 72-82.

17. Chen Z, Shen Y, Song Y, et al. Cross-modal memory networks for radiology report generation// The Joint Conference of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (ACL-IJCNLP 2021), 2022. arXiv: 2204.13258.

18. Wang X, Peng Y, Lu L, et al. ChestX-ray8: hospital-scale chest X-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, IEEE, 2017: 2097-2106.

19. Johnson A E W, Pollard T J, Berkowitz S J, et al MIMIC-CXR, a de-identified publicly available database of chest radiographs with free-text reports. Scientific Data. 2019; 6 (1):317. doi: 10.1038/s41597-019-0322-0. [ PMC free article ] [ PubMed ] [ CrossRef ] [ Google Scholar ]

20. Liu Z, Lin Y, Cao Y, et al. Swin transformer: hierarchical vision transformer using shifted windows// Proceedings of the IEEE/CVF international conference on computer vision, IEEE, 2021, 10012-10022.

21. Devlin J, Chang M W, Lee K, et al. Bert: pre-training of deep bidirectional transformers for language understanding// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, ACL Anthology, 2019: 4171-4186.

22. Silva Barbon R, Akabane A T Towards transfer learning techniques-BERT, DistilBERT, BERTimbau, and DistilBERTimbau for automatic text classification from different languages: a case study. Sensors. 2022; 22 (21):8184. doi: 10.3390/s22218184. [ PMC free article ] [ PubMed ] [ CrossRef ] [ Google Scholar ]

23. Chen Z, Song Y, Chang T H, et al. Generating radiology reports via memory-driven transformer// Conference on Empirical Methods in Natural Language Processing (EMNLP-2020), 2020. arXiv: 2010.16056.

24. Lee D, Tian Z, Xue L, et al. Enhancing content preservation in text style transfer using reverse attention and conditional layer normalization// The Joint Conference of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (ACL-IJCNLP 2021), 2021. arXiv: 2108.00449.

25. Lee J, Yoon W, Kim S, et al BioBERT: a pre-trained biomedical language representation model for biomedical text mining. Bioinformatics. 2020; 36 (4):1234–1240. doi: 10.1093/bioinformatics/btz682. [ PMC free article ] [ PubMed ] [ CrossRef ] [ Google Scholar ]

26. Yang S, Wu X, Ge S, et al Radiology report generation with a learned knowledge base and multi-modal alignment. Medical Image Analysis. 2023; 86 :102798. doi: 10.1016/j.media.2023.102798. [ PubMed ] [ CrossRef ] [ Google Scholar ]

27. Papineni K, Roukos S, Ward T, et al. BLEU: a method for automatic evaluation of machine translation// Proceedings of the Annual Meeting of the Association for Computational Linguistics, ACL, 2002: 311-318.

28. Banerjee S, Lavie A. METEOR: an automatic metric for MT evaluation with improved correlation with human judgments//Proceedings of the ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization, Association for Computational Linguistics, 2005: 65-72.

29. Lin C Y. ROUGE: a package for automatic evaluation of summaries. Text summarization branches out, Association for Computational Linguistics, 2004: 74-81.

30. He Tong, Zhang Zhi, Zhang Hang, et al. Bag of tricks for image classification with convolutional neural networks// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, IEEE, 2019: 558-567.

31. He K, Zhang X, Ren S, et al. Deep residual learning for image recognition//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, IEEE, 2016: 770-778.

32. Huang Gao, Liu Zhuang,Van Der Maaten L, et al. Densely connected convolutional networks// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, IEEE, 2017: 2261-2269.

33. Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: transformers for image recognition at scale//International Conference on Learning Representations, ICLR, 2021: 1-22.

34. Selvaraju RR, Cogswell M, Das A, et al. Grad-cam: Visual explanations from deep networks via gradient-based localization.//Proceedings of the IEEE International Conference on Computer Vision, IEEE, 2017: 618-626.

Articles from Sheng Wu Yi Xue Gong Cheng Xue Za Zhi = Journal of Biomedical Engineering are provided here courtesy of West China Hospital of Sichuan University

基于记忆驱动的多模态医学影像报告自动生成研究

Research on automatic generation of multimodal medical image reports based on memory driven

素霞 邢

俊泽 方

子涵 鞠

正 郭

瑜 王

1.3. 语义特征编码器

1.4. 基于记忆驱动的解码器

1.5. 迁移学习

2. 数据处理和评价指标

2.1. 数据处理

2.2. 评价指标

3. 实验结果与分析

3.1. 实施细节

3.2. 定量分析

表 1

3.3. 消融实验

表 2

3.4. 迁移学习实验结果

表 3

表 4

3.5. 定性分析

4. 结论

Funding Statement

Funding Statement

References

素霞邢

俊泽方

子涵鞠

正郭

瑜王