CAA云讲座:上海交大黄晓霖谈机器学习稳健性及医学影像处理应用
CAA云讲座:上海交大黄晓霖谈机器学习稳健性及医学影像处理应用
CAA智慧起航,共创未来导读2020年6月17日,上海交通大学自动化系黄晓霖副教授做客“CAA云讲座——智能健康与生物信息专题论坛”
机器学习数据流程概述
在机器学习的数据处理流程里,有一个未知的概率分布ρ,它作用于X和Y。从这个分布中抽取的数据,经过训练后,会形成回归器函数。这个函数的目的是,当新的数据输入时,能够给出接近真实值的结果。在众多数据预测的场合,我们就是通过这样的流程,用大量的样本来训练模型,希望面对未知的数据时,能够做出准确的预测。
机器学习的本质机理
尽管机器学习方法与算法种类繁多,但神经网络等核心技术依然专注于数据的逼近与曲线的拟合。目前,我们正使用以神经网络为代表的深度模型作为候选函数集。特别是在图像识别领域,这些深度模型能够在海量的图像数据中实现拟合学习,从而显著提高识别的准确性。
图像噪声处理办法
在处理图像噪声时,需要注意保持边缘清晰与图像平滑之间的平衡,既要保留图像的边缘信息,又要消除噪声。此外,在处理过程中,还可以采取一些方法来加快计算速度。比如,在制作高清视频时,对画面进行去噪处理,可以提升画质,同时不会显著降低处理速度。
监控背景提取技巧
监控视频在提取背景时往往伴随较大噪声,但通过运用先验知识,如稀疏性原理,可以有效改善提取质量。如果不借助这些知识直接提取,画面中会出现众多干扰元素。然而,一旦应用了先验知识,便可以获取到较为清晰的背景图像。这种技术在安防监控领域有助于更准确地识别目标。
函数意义的证明
为确保函数的有效性,我们先证明了ramp loss在所有概率分布中都是一种有效的分类校正工具,然后探讨了ramp loss在降低数据稀疏度方面的作用。这一连串的论证过程,就好比是建造一座高楼,必须先打好坚实的基础,这样才能确保在上面搭建的机器学习体系既可靠又稳固。
采样噪声的应对
X端产生的杂音需要处理,虽然有时候可以将这些杂音映射到Y系统上,但这并非总是可行的。以数据收集为例,如果原始数据带有杂音,单纯的迁移可能不足以解决问题,必须采取有针对性的措施。
特殊学习算法介绍
分位数学习算法,比如pin-SVM,通过最小化损失来近似最大化分位数的间隔。这就像为机器学习配备了一个“精确导航仪”,使模型在训练时能更有效地捕捉数据特征。此外,在loss误差上限的分析中,相关数据集的测试结果表明,即便存在噪声,loss仍能取得不错的效果。
对抗攻击的问题
学习依赖样本空间,缺乏对外界信息的扩展能力,这导致了对抗性攻击的产生。攻击者修改数据后,由于样本集未包含这些数据,预测结果可能出现错误或不精确。在网络安全方面,对抗攻击可能被恶意利用,使机器学习模型做出错误的判断。
稀疏先验的作用
通过稀疏先验,可以利用曝光数据信息,从而提高采样质量。举例来说,在医学影像分析中,它能够从有限却含有特殊信息的数据中提取更多有用信息,帮助医生作出更加精确的判断。
医学影像应用实例
CT扫描过程中,人体若发生移动,会导致2范数误差控制失效,从而产生较大误差。但通过loss迭代的连续调用,这一问题可以得到解决。在临床实际应用中,这一改进有助于获得更为清晰和准确的影像资料,对疾病的诊断具有显著影响。
内容总结与启示
图24对内容进行了总结,涉及了稳健机器学习理论的研究、对抗攻击的策略以及医学影像的应用。通过分析在有噪声和标签噪声情况下的反应,为设计更稳健的机器学习方法提供了众多有益的见解。我们可以从这些案例中吸取经验,学会更有效地处理噪声问题,增强机器学习模型的稳定性。
在参与过的机器学习项目里,我们是如何处理噪声问题的?欢迎各位留言交流。觉得这篇文章有帮助的话,别忘了点赞并转发给其他有需要的朋友!