机器学习,图形处理技术和医学成像数据的可用性的快速发展导致医学领域中机器学习模型的使用迅速增加。基于卷积神经网络(CNN)的体系结构的快速发展加剧了这种情况,医学成像社区采用了该体系结构来帮助临床医生进行疾病诊断。自年AlexNet取得巨大成功以来,CNN越来越多地用于医学图像分析,以提高人类临床医生的效率。近年来,三维(3D)CNN已用于医学图像分析。在本文中,我们追溯了3DCNN如何从其机器学习根源发展,3DCNN的简要数学描述以及将医学图像提供给3DCNN之前所需的预处理步骤的历史。我们回顾了使用3DCNN(及其变体)在不同医学领域(例如分类,分割,检测和定位)的3D医学成像分析领域的重要研究。我们通过讨论与在医学成像领域中使用3DCNN相关的挑战(以及通常使用深度学习模型)以及该领域可能的未来趋势来得出结论。
1.简介可以根据靶器官和疑似诊断从各种放射学检查中获取医学图像。常见的放射学检查方式包括X射线,计算机断层扫描(CT),扩散张量成像(DTI),正电子发射断层扫描(PET),功能性MRI(fMRI)和磁共振成像(MRI),[1]–[4]。在过去的三十年中,这些放射图像采集技术在采集时间,图像质量和分辨率方面取得了巨大进步[5]–[9]。但是,尽管硬件有所改进,但所有放射图像都需要经过培训的人类放射科医生进行后续图像分析和诊断。除了培训放射线医师所花费的大量时间和经济成本外,放射线医师还受到经验,时间和疲劳的限制。放射科医生还承受着阅读和报告数量不断增长的放射图像的压力,这些图像的人口老化和扫描技术越来越普遍。自动化的机器学习算法在协助人类临床医生减轻繁重的工作量方面发挥着至关重要的作用。常见的X射线是二维医学图像的示例。这些医学图像的机器学习与近年来用于对自然图像进行分类的卷积神经网络(CNN)技术没有什么不同,例如ImageNet大规模视觉识别竞赛[10]。历史方法涉及大量的基于规则的算法或手工特征手工制作[11]–[16],这些过程很耗时,泛化能力差且需要领域知识。CNN的优点是几乎不需要预处理,并且翻译不变[17]。通过过滤器提取低级图像特征,并在分类之前逐步学习更高的特征。随着计算成本的降低和更强大的图形处理(GPU)单元的可用,分析三维医学图像(例如CT和MRI扫描)成为可能[10]。这些扫描提供了人体器官的详细三维图像,可用于检测感染,癌症,外伤以及血管和器官的异常。
2.深度学习背景深度学习是指包含多个相互连接的人工神经元层的人工神经网络[18]。类似于生物神经元的人工神经元需要多个输入,执行简单的计算并产生输出。这种简单的计算形式为输入的线性函数,然后是由f()表示的激活函数(通常是非线性的)。一些常用的非线性激活函数的例子是双曲正切(Tanh),S形变换和整流线性单位(ReLU)(给定最大值为0和输入)[19]。深度学习本质上是人工神经网络的转世,我们在其中逐层堆叠人工神经元。使用建立在先前层的输出上的终端层的输出,可以开始描述任意复杂的模式。在很短的时间内,深度学习已成为传统上用于医学成像的几种机器学习算法的替代方法。为了了解深度学习在医学成像应用中得到广泛使用和成功的原因,我们在PubMed出版物数据库(截至年3月20日)的标题和摘要中搜索了机器学习+医学。我们发现使用越来越多的相似数据用于不同方法的趋势非常可预测(图1)。另一方面,如果我们在标题和摘要中对深度学习+医学和3D深度学习+医学进行类似的查询,则会看到不同的情况。这基本上表明几年前该领域没有太多工作,最终与深度学习相关的出版物数量迅速增加。年后,医学领域的深度学习将呈指数级增长。以非常相似的方式,从年开始,3D深度学习在医学领域的研究中将呈指数级增长。
深度学习的历史证据和发展阶段可以追溯到WalterPitts和WarrenMcCulloch()。此外,可以通过一些最重要的开发阶段来追踪此旅程,例如连续反向传播模型(),卷积神经网络(),LSTM(长短期记忆)(),ImageNet(),AlexNet()[20],[21]。年,Google提出了GoogleNet(年ILSVRC挑战赛的获胜者)[22],它使用了CNN中的初始概念。GoogleNet包含启动模块(图2),该模块出人意料地降低了网络的计算复杂性。确实,深度学习的新策略是在深度网络内部每个单独层使用卷积运算在网络内生成功能的策略。这个网络被称为卷积神经网络[23]。本质上,在CNN中,特征是通过将内核与输入图像卷积而在网络内生成的。这些特征通常采用形状,曲线,边缘等形式。
一个完整的CNN包含四个基本组件:
(1)局部感受野,(2)共享权重;(3)池化;(4)全连接层。
深度CNN结构由多个卷积层和池化层和1一个或多个全连接层组成。假设输入是M*M神经元,使用大小a*b的卷积核w,计算第l层的位置(i,j)的非线性输出,使用如下计算方法:
其中
是卷积共享偏置,然后经过非线性激活得到神经元输出:
3.3D卷积网络
1D的CNN提取光谱特征,2D提前空间特征。3DCNN可以综合1D和2Dcnn优势,可以从输入体积同时提取光谱和空间特征。这些3DCNN特征对于医学图像分析非常有用。3DCNN的数据计算形式和2DCNN类似,只是多一个维度。基础的3DCNN结构如图3所示,下面讨论3DCNN计算的数学背景。
卷积层3DCNN的定义,原理和工作方式与1DCNN和2DCNN相同。只是在2DCNN中加入深度方向的维度。假设输入是
神经元,接着是
的权重为w的卷积。为了计算第l层位置(i,j,k)的输出,使用如下公式计算:
池化层每一个3DCNN卷积层可能包含一个池化层。池化层以一个小体积为输入(2DCNN是一个方形框),使用最大或平均产生一个输出。在反向传播阶段,CNN通过计算平均损失e(损失函数也叫代价函数)调整权重和参数然后反向传播到输入。通过偏导计算损失e对输出的导数,根据链式法则计算对每一个变量的偏导数如:
前一层的权重可以通过如下公式进行:
公式6使得我们可以简单计算前面层的损失
4.3D医学图像预处理无论哪种图像模态,在输入CNN或其他分类器之前进行预处理是非常重要的。但是,尤其是3D医学成像至关重要,因为必须将整个体积馈送到3DCNN。在将数据输入到深度神经网络模型之前,必须执行几个必要的医学成像扫描预处理步骤,例如1)去除伪影,2)归一化,3)切片定时校正(STC),4)图像配准和5)偏置场校正。尽管要获得可靠的结果必须执行1)到5)的所有步骤,但是在3D医学图像的情况下执行STC和图像配准变得极为重要。分类器的性能高度依赖于3DCNN中的这两个步骤。我们简要讨论了上述预处理步骤。
A.去除伪影任何预处理的第一步是去伪影。在分析T1或T2加权MRI和脑图像的DTI方式之前,强烈建议切除脑外组织。fMRI数据通常包含瞬时尖峰伪影或在漂移时间内变慢。fMRI数据通常包含瞬时尖峰伪影或在漂移时间内变慢。因此,主成分分析技术可用于查看这些与尖峰有关的伪影[3],[24],[25]。在将数据进行预处理以将其馈送到自动管道之前,建议进行手动检查。例如,如果输入的T1解剖数据很大,FSLBET命令将无法执行正确的大脑区域提取(图4),并且如果我们将带有伪影的图像用于流行的fMRI预处理工具fMRIprep[26],则会失败。好。因此,要去除这些多余的颈部组织,我们应该执行其他必要的步骤以进行适当的预处理。
B.归一化用于每个人成像的大脑和其他身体部位的形状和大小可能会有所不同。因此,建议在进一步处理之前对脑部扫描进行标准化。[4],[27]–[30]。由于MRI的特性,基本上,即使在同一位医学患者的图像中,同一扫描设备也可能具有不同的强度。由于可以在不同的光照条件下执行患者扫描,因此强度归一化在3DCNN的性能中也起着重要作用。另外,通常使用CNN,每个输入通道(即序列)都被标准化为在训练集中具有零均值和单位方差。CNN中的参数规范化也会影响CNN性能。
C.分片时间校正在创建大脑的体积表示时,我们经常在每个单独的重复时间(TR)中对大脑中的多个切片进行采样。然而,当我们顺序地获取它们时,通常在稍微不同的时间点对每个切片进行采样[31],[32]。因此,即使在单个时间点扫描3D大脑体积,也有可能对大脑体积的顶部进行的采样比对底部的采样晚(例如,一或两秒)。这是关键问题,需要在进行任何其他分析(例如分类或细分)之前进行校正。在这方面,STC经常用于调整时间偏差,并被一系列软件(例如SPM和FSL)广泛使用[33]。基于STC的数据插值方法,已经提出了几种类型的技术,包括三次样条,线性和CNC插值[34]。通常,基于插值技术的STC方法可以分为基于场景和基于对象。在基于场景的方法中,内插像素强度由切片的像素强度显示。尽管插值技术不符合标准,但它们相对简单,直观且易于实现。另一方面,基于对象的方法具有更好的准确性和可靠性,但计算量大。随后,在医学图像插值中也发现了三次样条和其他多项式。本质上,所有这些策略都对相邻像素进行强度平均,而不会形成任何特征变形。因此,所得的中间片在物体边界内具有模糊的负面影响。三次插值是BrainVoyager[35]软件中选择的标准技术。
D.图像对齐医学成像越来越多模式化。例如,当考虑来自CT,MRI-T1和T2的同一患者的图像时,每种模式都会检测到不同的特征。在医学成像中,可能会遇到以不同方向获取多个图像的情况。在这里,有必要通过视觉比较来匹配图像[36]。这给了我们一个分析问题,我们可以在其中出现异常的数据集中自动进行对齐或配准。这使我们能够识别图像的突出部分,以供进一步检查。T-1和T-2MRI显示相同大脑数据的不同结构。同样,对于不同的图像采集分辨率,两个图像将具有不同的采样网格。因此,如果需要将这些图像叠加并馈
E.偏差区域校正MRI图像受偏置磁场畸变的影响,该畸变通常会导致强度发生波动[40],[41]。偏差场是一种不希望有的伪影,通常由于不正确的图像采集实践以及正在成像的对象的某些属性而出现。这些伪像的特征在于整个图像上强度的平滑变化。送到3DCNN,则必须对齐这些图像[37]-[39]。
5.3D医学图像应用A.分割多年来,机器学习和人工算法一直在帮助放射线医师进行医学图像的分割和评估,例如乳腺癌X线照片,脑瘤,病变,脑出血等。分割操作极大地帮助放射线专家进行定量评估和进一步规划必要的治疗方法。几位研究人员为3DCNN在医学图像分割中的使用做出了贡献。在这里,我们专注于使用3DCNN进行医学图像分割的最重要的相关工作。
脑肿瘤/病变/亚结构:病变分割可能是医学成像中最具挑战性的任务,因为在大多数情况下病变很小。同样,在不同的扫描中,它们的大小也存在很大差异,这可能会导致数据不平衡问题。在这方面,公认的作品是《深度医疗》[42],它也是ISLES竞赛的获胜者。在DeepMedic中,引入了3DCNN架构用于自动脑部病变分割,从而在3D体积脑扫描中提供了最先进的性能。多分辨率方法已被用来包括局部以及空间上下文信息。该网络提供了一个非常吸引人的3D地图,显示了网络认为病变所在的位置。它在因事故而遭受脑外伤的数据集上实施。在脑肿瘤病例中,DeepMedic还可以很好地用于分类和检测问题。此后,Kamnitsas等人扩展了工作。[43]针对BRATS挑战,作者利用3DCNN中的残余连接的优势。结果令人印象深刻,在前20名团队中,Dice得分中位数分别为0.(整个肿瘤,WT),0.75(肿瘤核心TC)和0.72(增强核心,EC)。医学成像领域经常遭受类不平衡问题的困扰。在这种情况下,Zhou等。[44]在BRATS挑战赛中提出了用于脑肿瘤分割的3DCNN(FusionNet的3D变体)。作者将多类肿瘤分割问题分为3个针对深度3DCNN模型的单独分割任务,即i)完整肿瘤的粗分割,ii)小波变换(WT)和类内肿瘤的精细分割,以及iii)脑的精确分割瘤。他们的模型在BRATS数据集上排名第一,在BRATS验证数据集上排名第三(在64个团队中)。表I总结了针对BRAST挑战的脑肿瘤/病变分割应用的3DCNN的一些重要进展。
U-Net在2D生物医学图像的分割中显示出非常好的性能[45]。根据DeepMedic,Casamijanna等人。[46]提出了一种3DCNN,以便在进行预测时单遍处理整个3D体积。它们利用了上采样层,这又增加了有效的批处理大小,而没有增加存储空间或任何额外的计算复杂性负担。但是,该网络并不算太深,因为在卷积层之后只有一个池。因此,该网络无法对网络进行多尺度分析众所周知,2D卷积无法充分利用医学体数据的空间信息,而3DCNN则存在计算复杂性和计算内存问题。为了解决这些问题,Chen等[47]提出了一种用于脑肿瘤分割的可分离3DU-Net。在BRATS挑战数据集上,他们获得了0.(EC),0.(WT)和0.(TC)的骰子得分。Kayal?bay等[48]使用年的挑战赛提出了用于脑肿瘤分割的类似3DU-Net的架构。作者通过在上采样期间插入残差块,在传统U-Net体系结构中引入了一些非线性,因此,它有利于梯度易于流动。由于使用了Jaccard损失函数,所提出的体系结构还固有地处理了类不平衡问题。然而,由于它们使用大的感受野,因此所提出的体系结构在计算上相当复杂。Isensee等[49]提出了一种3DU-Net体系结构,该体系结构包含用于脑肿瘤分割的透视收集路径。随着我们深入,该策略将对输入的渐进抽象解释进行编码,随后是将这些解释与较低特征重新组合的定位路径。通过假设语义特征易于学习和处理,在[50]Peng等人中提出了用于脑肿瘤分割的多尺度3DU-Net。他们的模型由几个3DU-Net块组成,用于捕获远距离空间分辨率。为了捕获有意义的特征,以不同的分辨率进行了上采样。在BRATS挑战数据集上,他们获得了0.(WT),0.(TC),0.(EC)。CNN也经常被测试用于脑深部区域的分割。Milletari等[51]将Hough投票方法与2D,2.5D和3DCNN相结合,以分割MRI扫描的体数据。但是,这些网络仍遭受类不平衡问题。在[52]中,在MRI中将3DCNN用于皮层下脑结构分割,这项研究基本上是基于网络中内核大小的影响。在[53]中,作者将3DU-Net用于密集的体积分割。但是,此网络不是完全3DCNN,因为他们使用2D带注释的切片来训练网络。佐藤等。[54]提出了用于头颅CT体积分割的3DCNN。3DCNN也用于分割膝盖结构。在[55]中,Ambellan等人。除了3DCNN之外,他还提出了一种结合3D统计形状模型和2D的技术,以实现对膝盖结构的有效且精确的分割。在[56]中,作者建议使用3DCNN在3DPET图像上分割宫颈肿瘤。他们的体系结构使用先验信息约束空间信息进行分割。作者声称在3DPET上分割宫颈肿瘤的结果非常精确。在[57]中,作者提出了一种3D卷积核,用于同时学习3DCT多器官分割工作的滤波器系数和空间滤波器偏移。将结果与U-Net架构进行了比较。作者声称他们的体系结构在获得高质量的同时,需要较少的可训练参数和存储。
肝与心脏:肝癌无疑是导致癌症死亡的主要原因之一。因此,强烈需要可靠且计算机化的肝脏和肿瘤分割技术来协助放射线专家和医生进行肝细胞癌的鉴定和管理。Duo等[58]提出了一种完全连接的3DCNN,用于从3DCT扫描中进行肝脏分割。还对整个心脏和血管的分割进行了测试。3DU-Net被应用于肝脏分割问题[59]。在[60]中,使用3DResNet从粗到细方法进行肝脏分割。在[32],[61]-[63]中可以找到其他类似的肝分割方法。在此序列中,另一项基于2DDenseUnet和分级诊断方法(H-DensNet)的肝损伤分割研究在[64]中提出。该网络在LiTS排行榜中排名第一。与其他非常完善的肝脏分割方法相比,该网络已在3DIRCADs数据库上进行了测试,并获得了最新技术成果。他们在Dice上进行肝脏和肿瘤分割的准确性分别达到98.2%和93.7%。
B.分类阿尔茨海默氏病(AD)当然是痴呆症的最一般类别,通常与大脑化学反应中的病理性淀粉样蛋白沉积,结构性萎缩和代谢变化有关。及时诊断AD在减缓,避免和预防痴呆的发生中起重要作用。近年来,许多研究人员应用机器学习技术来预测AD。但是,很少有人尝试使用3DCNN对AD进行分类[65],[66]。杨等人[28]很好地可视化了AD中分类问题的3DCNN。作者提出了三种类型的视觉检查方法:1)基于灵敏度分析,2)3D类激活映射和3)3D加权梯度加权映射。作者解释了视觉检查如何提高准确性以及在确定3DCNN架构时可能的改进。使用MRI数据集在3D深VGGNet和3DResNet上进行了AD分类的实验。在[67]中,作者训练了一种自动编码器,以从从ADNI数据集下载的预处理MRI扫描中提取的3D补丁中选择适当的特征,并显示出比文献中提供的2DCNN更好的结果。作者在准确性方面显示出显着的提高。在[68]中,作者使用PET和MRI数据将LSTM与3DCNN堆叠在一起以进行AD分类。首先,从3D完全连接的CNN派生出深层特征表示,并将LSTM应用于这些特征以提高性能。我们在表II中总结了3DCNN用于医学成像分类任务的一些重要进展。
在[28]中,作者通过AD功能很好地形象化了3DCNN,这可能是理解3DCNN每层行为的非常好的一步。在这项工作中,一些众所周知的基线2DCNN已转换为3DCNN,例如VGGNet,ResNet,并将结果与ADNI上的数据进行了比较。在[69]中,已经对可分类的AD的可观数据集进行了很深的3DCNN研究。91xx91体素用于网络的训练和测试。另一方面,Nie等[70]通过训练3DCNN来评估经历高级别神经胶质瘤的患者的生存,从而利用MRI的3D方面。周等[71]提出了一种用于乳腺癌检测的弱监督3DCNN。但是,该研究存在一些局限性:1)数据本质上是选择性的,2)所提出的架构仅能够以高概率检测到肿瘤,并且3)仅将结构特征用于实验。Ha等[72]将2DU-Net修改为3DCNN,以量化乳腺MRI纤维腺组织(FGT)和背景实质增强(BPE)。在[58]中,Nie等人提出使用多模态神经图像(T1加权MRI和扩散张量成像,DTI)的3DCNN多通道结构,用于脑肿瘤患者的生存时间预测。最近,在[73]中,作者提出了一种混合模型,用于头颈癌中LNM的分类和预测。他们通过使用ER融合策略,将MaO-radiomics和3D-CNN架构的输出结合在一起。在[74]中,作者提出了一种3DCNN,用于使用PET/CT检查的CT图像预测癌症患者的淋巴结的最大标准化摄取值。
CT脑出血:最近Jnawali等人[30]已经证明了3DCNN在CT脑出血扫描分类中的性能。通过这项研究,作者构建了3DCNN的三个版本。其中,最终有两种架构是VggNet和GoogleNet的适度3DCNN软件包。这项独特的研究是在一个大型私人数据集上完成的,其准确性达到了约87.8%。高等[75]通过医院的次CT头颅扫描实施7层深3DCNN,在AD,病变和正常衰老的分类中显示了87.7%的准确性。在这项研究中,作者还将3DCNN的结果与3D尺度不变傅里叶变换(SIFT)的手工制作功能进行了比较,并表明,提出的3DCNN方法在整体精度方面的性能提高了约4%。在[76]Ker等人开发了3层浅3DCNN用于脑出血分类。与3DVGGNet和3DGoogleNet相比,拟议的网络以较少的培训时间提供了最新的结果。
C.检测脑微出血(CMBs)是正常大脑以及轻度异常大脑中慢性血液制品的小灶。在使用3DCNN检测CMB方面已有一些研究。Dou等。[77]提出了一个两阶段的全连接3DCNN体系结构,以从SWI图像数据集中检测CMB。该网络有助于减少大量的误报候选人。为了训练目的,从预处理的数据集中提取了几个3D块。这项研究还研究了3D补丁大小对网络性能的影响。总的来说,与随机研究和2D-CNN-SVM等类似研究中的2D技术相比,本研究在3DCNN的CMB分类中表现出较高的性能。窦等等在MRI脑部扫描中采用了全3DCNN来检测脑出血的微观区域[78]。所描述的方法的灵敏度为93%,优于现有的检测方法。对于放射科医生来说,检测脑组织中的脑微出血是一项艰巨而耗时的任务,他们的工作是3DCNN如何在临床上有意义的应用中帮助放射科医生的一个例子。
Standvoss等[79]检测到颅脑外伤(TBI)中的CMS。在他们的研究中,作者准备了3种类型的3DCNN架构,其深度各不相同,即3、5和8层。这些模型非常简单明了,总体最佳精度为87%。这些研究的缺点是他们利用了一个小的数据集来训练网络。在[80]中,作者提出了3DCNN来预测心脏CT血管造影(CCTA)图像中任何给定点的动脉的路径和半径,这取决于局部图像斑块。这种方法具有根据通过图像文件提取的细节精确有效地计算出冠状动脉的路径和半径的能力。
D.定位生物体系结构的本地化是医学图像调查中各种计划的基本要求。对于放射科医生而言,定位可能是一个轻松的过程,但是对于神经网络而言,这通常是一项艰巨的任务,因为这些神经网络容易因图像采集过程,结构和患者之间的病理差异而引起的医学图像变化。通常,在医学图像中定位需要3D体积。已经提出了几种技术,这些技术通常开始将3D空间视为2D正交平面的排列。Wolterink等[81]通过使用标准CNN在冠状动脉CT血管造影中检测出冠状动脉钙化评分。DeVos等[82]介绍了使用单独的CNN和2DCT图像切片(胸部CT,心脏CT和腹部CT)作为输入的定位技术。尽管这项工作与3D本地化方法有关,但是他们并没有真正使用3DCNN。另外,该方法在很大程度上取决于对生物结构的准确识别。霍等人[83]利用3D完全连接的CNN的属性,提出了一种空间定位的Atlas网络图块(SLANT)模型,用于在高分辨率多站点图像上进行全脑分割。
椎间盘(IVD)是适度的关节部分,位于周围椎骨之间,且IVD的定位通常对于脊柱疾病的分析和测量很重要。在[84]中,作者提出了使用完全连接的CNN在胎儿神经超声检查中对多个大脑结构的3D检测,并将其命名为VP-Nets。他们解释说,提出的策略需要较少的数据进行训练,并可以从粗略注释的3D数据中学习。最近,在[31]中引入了基于回归的3DCNN,以通过年3D头MRI进行的基底节扫描来评估血管周间隙(EPVS)的程度。在[85]中,作者在临床3DCT数据中报告了3DCNN在地标检测中的人类水平效率。在[86]中,Saleh等人。提出了一种使用T2加权成像的3DCNN回归模型,用于3D解剖姿势估计。他们表明3D深度CNN为基于优化的技术提供了很好的初始化,以扩大切片到卷配准的捕获范围。同样,3DCNN是实时的卷到卷刚性注册。小萌等。[87]提出了使用多模态MR图像对IVD进行定位和分割的全连接,准确和自动的3DCNN。这项工作显示了MICCAI-挑战中IVD定位和分割部分的最新性能,IVD分割的骰子得分为91.2%。
六.挑战和结论通常情况下,深度学习模型的训练依赖大量的训练样本。最近在大型图像集(如ImageNet)上训练的深度学习模型的成功进一步加强了这一点。但是,在医学图像的情况下,深度学习模型是否可以与较小的数据集一起使用仍然是一个模棱两可的问题。例如,来自ImageNet数据集的图像在外观上有很大的变化(例如,光,强度,边缘,颜色等)[23],[25],[90]-[92],因为这些图像是在不同的位置拍摄的角度和距离,并具有与医学图像完全不同的几个不同特征。因此,需要学习这些图像的有意义表示的网络需要巨大的训练参数,因此需要训练样本。但是,在医学图像的情况下,与传统图像数据集相比,差异要小得多[93]。在这方面,已经在自然图像数据集上训练的3DCNN模型的微调过程可以应用于医学图像[23],[25],[90]-[92],[94],[95]]。此过程称为转移学习,已成功应用于医学成像的许多领域。
不管计算复杂度如何,3DCNN在AI机器学习的许多领域中都表现出令人难以置信的性能。3DCNN需要训练大量参数,这在3D医学图像的情况下会变得更加严峻,其中图像体积的深度在每体积20到次扫描之间变化[9],[25],[70],[[96],每个扫描量都包含有关患者的非常重要的信息。通常,高分辨率扫描量的大小为x,并且在送入3DCNN架构之前需要进行下采样以降低计算成本。研究人员通常使用插值技术来减小这些医学图像体积的整体大小,但是会损失大量信息。在不损失大量信息的情况下,对医学图像体积的尺寸调整也有限制。这仍然是一个尚未探索的领域,还有进一步的研究范围。
尽管卷积层的可训练参数的数量与输入大小无关,但是随后的完全连接层中的可训练参数的数量取决于卷积层的输出。在将输入图像输入到3DCNN模型而不进行任何下采样的情况下,由于大量可训练的权重,这通常会导致难以处理的模型。但是,对于2D图像则不是这种问题,因为2D图像具有较小的通过卷积滤波器学习的潜在表示。这使得训练3DCNN变得更加困难(且GPU密集)。考虑到3D医学图像分析中的计算复杂性,可以进一步探索GoogleNet的初始模块
如前所述,医学图像体积的深度大约在20到之间变化。对于3DCNN,我们将整个体积作为3DCNN的输入。在大多数情况下,只有少数切片显示异常,因此在大多数情况下,会将大量不必要的体积馈入模型。但是,在大多数情况下,我们只为整个图像卷设置标签,而没有为每个图像切片设置标签。因此,可以研究选择将哪些数据馈入模型的方法。
确实,在深度学习环境中,学习正确的特征听起来可能是不合常规的,因为我们无法确定ANN是否会学习确实会区分条件的特征或仅适合某些数据集特定特征的特征。CNN可以处理原始图像数据,不需要手工制作和设计功能[18],[90]。CNN有责任从数据中发现正确的功能。尽管CNN使得在潜在空间中对原始特征进行编码非常方便,但是了解CNN学习的特征是否可以在数据集中进行概括非常重要。机器学习模型通常会过度拟合训练样本,因此它们仅在训练数据集中的测试样本上表现良好。在医学成像应用中,扫描仪的可变性,扫描采集设置等存在问题时,这个问题非常严重。因此,使用模型可解释性方法解码训练后的网络并验证网络学习的重要特征非常重要[97]。使用不用于训练的外部数据集报告测试结果也很重要。但是,由于缺乏用于训练和测试的数据集,因此并非总是可能的。
最后,最终的挑战是超越人类水平的表现。已经在多个演讲和文学中对其进行了讨论。研究人员正在努力在许多任务(称为人工智能)上达到人类水平的表现[24],[42],[98],[99]。然而,缺少标签图像,标签数据集的高昂费用,分配标签中的专家之间缺乏共识[27],[],[],这是该领域当前面临的挑战。这些问题迫使我们考虑使用可靠的数据增强方法并生成具有已知事实的样本。在这方面,生成对抗网络(GAN)[],尤其是用于跨模态图像合成的CycleGAN,为合成数据提供了一种可行的方法,并已被用于产生与原始数据集高度相似的伪图像。