为了解决医疗机器学习应用程序中的多样化和可参考案例的严重不足,首次使用对抗网络来创建伤口图像的合成数据集。这个名为WG 2 AN的系统是巴顿工程技术学院与AI卫生公司eKare的合作,将机器学习方法应用于伤口的检测和识别。


GAN接受了eKare提供的100-4000张带标签的立体慢性伤口图像的培训,其中包括来自压力、手术、淋巴血管事件、糖尿病和烧伤等原因的受伤类型的匿名照片。原始材料的大小在1224×1224到2160×2160之间变化,所有这些材料均由医生拍摄。


将机器学习方法应用于伤口的测量和识别,可用于平衡医疗数据集


为了在模型训练体系结构中容纳可用的潜在空间,将图像重新缩放为512×512,并从其背景中提取出来。为了研究数据集大小的影响,对100张、250张、500张、1000张、2000张和4000张图像进行了批量测试。


将机器学习方法应用于伤口的测量和识别,可用于平衡医疗数据集


上图显示了根据有用的训练集的大小以及每次通过运行的时期数而增加的细节和粒度。


将机器学习方法应用于伤口的测量和识别,可用于平衡医疗数据集


WG 2 GAN在PyTorch上以相对精简的消费者风格设置运行,在GTX 1080 GPU上具有8GB VRAM。在100个到4000个图像的数据集大小范围内以及整个历时范围内,训练花费了4-58小时,批次大小为64,这是准确性和性能之间的权衡。Adam优化器用于以0.0002的学习率进行训练的前半部分,并以线性衰减学习率结束,直到达到零损失为止。


将机器学习方法应用于伤口的测量和识别,可用于平衡医疗数据集


在左上方,分割应用于伤口区域。 在中心上方,是实际伤口的图像; 右上角是根据原始来源可以在数据集中推广的一种类型的合成伤口。 下图是原始伤口,右图是WG2GAN生成的伤口的合成物。


在医学数据集中,就像许多其他机器学习领域一样,标记是不可避免的瓶颈。在这种情况下,研究人员使用了一种半自动标记系统,该系统利用了eKare的早期研究成果,该研究采用了在Play-Doh中创建并针对语义上下文进行了大致着色的真实伤口模型。


将机器学习方法应用于伤口的测量和识别,可用于平衡医疗数据集


研究人员指出,在训练的初始阶段经常会出现一个问题,当数据集非常多样化并且权重是随机的时,模型需要很长时间(75个纪元)才能“安顿下来”:


将机器学习方法应用于伤口的测量和识别,可用于平衡医疗数据集


在数据多样化的情况下,GAN和编码器/解码器模型都难以在早期阶段获得通用性,正如我们在上面的WG 2 GAN训练图中所看到的那样,该图跟踪了从开始到零损失的训练时间轴。


必须注意确保训练过程不会固定在任何一个迭代或纪元的特征或特性上,而是会继续推广到可用的平均损失,而不会产生过度抽象原始资料的结果。在WG 2 GAN的情况下,这可能会产生无边界的,完全“虚构的”伤口,这些伤口串联在太多无关的伤口类型之间,而不是在特定伤口类型中产生准确的变化范围。


控制机器学习数据集中的范围


具有较轻训练集的模型的泛化速度更快,并且论文的研究人员争辩说,可以在小于最大设置的情况下获得最真实的图像:训练200个历元的1000个图像数据集。


尽管较小的数据集可能会在更短的时间内获得高度逼真的图像,但是图像的范围和所产生伤口的类型也必然会受到更大的限制。GAN和编码器/解码器的训练方式在输入数据的数量和种类,所生成图像的保真度和所生成图像的真实性之间,存在微妙的平衡-范围和权重问题不限于医学图像合成。


医疗数据集中的类别失衡


通常,医疗保健机器学习不仅会因缺乏数据集而受到困扰,而且还会因类别失衡而困扰,在这种情况下,有关特定疾病的基本数据仅占其宿主数据集的很小一部分,以致有可能被识别为异常数据,或者在整个培训过程中被概括化。


已经提出了许多方法来解决后一个问题,例如欠采样或过采样。但是,该问题通常通过开发特定于疾病的数据集而完全避开,这些数据集完全绑定到单个医学问题上。


免责声明

我来说几句

不吐不快,我来说两句
最新评论

还没有人评论哦,抢沙发吧~