数字化领航总第12期《物联网》

Column Big Data 大数据专栏

人工智能助力医学影像处理

文/王神迪

随着人工智能等技术的快速发展，对计算机辅助诊断系统的研究引起了广泛的关注。它用于对疾病的材料收集、医学信息的量化处理、统计学分析、从而得出诊断结果，降低人工成本。本文将以肺部影像为例，展示通过机器学习的方式对肺部CT影像中的肺结节病灶点进行自动诊断。

一、背景简介

如今，人工智能（Artificial Intelligence， AI）在国内外的发展热度不断提升，研究让计算机如何去完成以往需要人的智力才能胜任的工作，也就是研究如何应用计算机的软硬件来模拟人类某些智能行为的基本理论、方法和技术。该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。随着图像识别、深度学习、神经网络等关键技术的突破带来的新一轮人工智能的发展，并极大的推动了以数据密集、知识密集、脑力劳动密集为特征的医疗产业与人工智能深度的融合。现代医学是建立在实验基础上的循证医学，医生的诊疗结论必须建立在相应的诊断数据上，影像则是重要的诊断依据。 “人工智能+医学影像”便是计算机在医学影像的基础上，通过机器学习，完成对影像的分类、目标检测、图像分割和检索工作，协助医生完成诊断、治疗工作的一种辅助工具。

1. 计算机辅助诊断系统

随着计算机科技的高速发展，计算机辅助诊断系统（Computer Aided Diagnosis，CAD）通过医学影像处理技术与其他的生理手段并结合机器学习技术，辅助发现病灶，提高诊断的准确率。现在常说的CAD技术主要是指基于医学影像学的计算机辅助技术。CAD系统通过对医学影像的一系列处理，如图像增强、去噪、分离等，为医生对肺癌的早期检测和诊断提供了十分有力的支持，帮助医生检测出病变特征，勾画出可疑对象，并提醒重点目标区域。CAD系统可以大幅度缩减医生的工作量，也使得通过影像的诊断结果更加客观化，提高了工作效率以及诊断的正确率。

2. 研究动机和贡献

目前，肺癌成为了世界氛围内致死率最高的癌症之一。由于医学条件限制，肺癌在早期的时候十分难以发现。肺癌的早期在医学影像方面的表现通常为孤立性肺结节（Solitary Pulmonary Nodule, SPN）。临床上肺部的类圆形病灶通常是通过直径大小来进行分类的，既肺部实质内直径小于30mm 的单发圆形或类圆形致密影。CT（Computed Tomography）是肺部疾病诊断的重要途径。CT技术与图像处理、模式识别等技术的深度融合，使CAD得到了迅速的发展。CT断层扫描技术为了能够检测出小结节甚至微结节，不能像传统的X射线扫描那样纵向扫描一张图像，而是必须横向对全肺进行间隔较小的断层扫描。这样，可以得到几十甚至上百幅薄层CT图像，从而获得了整个肺部的所有特征。而医生需要从上述CT图像中凭肉眼排除大量的血管、肌肉等组织的干扰，将微小的肺结节甄别出来。这对医生来讲，是一个严峻的挑战。因此，本文将主要介绍通过CAD技术，如何实现医学影像的肺结节自动检测。本文结构如下，第二章介绍系统模型，分别包括图像特征提取的算法模型和机器学习分类算法模型。诊断结果的性能分析将在第三章中阐述，最后第四章为结束语。

二、系统模型

通常医学影像中计算机辅助诊断系统可分为三个主要部分，既图像预处理，特征提取和数据分析。本章节将从这三个部分详细阐述CAD系统模型。肺结节自动检测系统流程图如图1.所示。

1. 图像预处理

医学图像预处理主要去掉图片中的背景信息，用于分割肺部实质信息。在计算机对CT图像进行处理的时候，首先对图像进行函数数字化，既图像的采样以及量化过程。这样，可以把一副CT图像转化成为的数字矩阵，行和列的标号表示原图像的位置坐标，矩阵中的数字表示图像的像素值。 CT图像以其像素的不同灰度反应人体各个组织对X射线的吸收程度，X射线穿过人体时，不同的组织密度值代表不同的线性衰减系数（吸收系数），它所对应的值称为CT值：

（1）

其中，K为分度因数，CT值得单位为HU（Hounsfield Unit）。CT值的区间通常表示为，如图2.所示。图像背景值为-1000，而脂肪和肌肉分别在-200到200 HU之间。

图2.灰度直方图以及分割阈值。

2. 肺部实质分割

本文采用最佳阈值算法为肺部CT图像计算出一个合适的阈值，从而实现肺部实质区域的初步分割。首先给定一个初始阈值,根据肺部CT图像特点,初始阈值采取密度平均值[1]。然后，通过迭代逐渐使阈值逼近最优值，对图像进行分割。算法如下：

肺部CT图像经过二值化处理后，有效的被分割为躯干和背景两部分。因此,可以容易的得到躯干的外部轮廓。而左右肺分割，本文实施步骤如下。首先，通过连通区域判断左右肺的连接情况，经过去除气管、支气管的肺部实质区域应当只存在两大连通区域。计算出已被二值化的肺部实质区域的宽和高，分别记为。计算出肺部的中心位置。其次，计算列在行内实质区域内被标定像素个数之和 ,其中为肺实质区域内上方像素的坐标。在区间列内重复上述步骤。最后，计算得到像素个数最小时所在的行列坐标，定位分割出左右肺区域。最后，采用膨胀的方法对肺部轮廓修复。以半径为2像素宽度的圆形为模板，使该圆在所得的肺实质区域边界滚动一周，扩大后的部分均作为肺实质区域。从而实现了图像轮廓的修复。

3. ROI特征提取

本文采用的图像为DICOM格式，像素分辨率为512*512，灰度级为256（0～255，其中0表示为黑色，255为白色）。根据图像的连通算法，获取ROI区域。特征提取在图像检索中十分重要，可以将高纬空间中的图像转变成低纬空间并保留图像的特征内容。本文分别提取了ROI的灰度均值，方差，灰度直方图熵作为肺结节的灰度特征。

灰度均值和方差分别表示图像中所有像素点的灰度平均值和灰度的随机分布与均值之前的偏离程度，可由如下公式表示：

（2）

（3）

其中，图像灰度矩阵为。灰度特征的统计直方图实际上可表示为一个一维数组。而向量的长度为灰度级的数目。经过归一化，数组中的各个元素得到相应灰度级在图像中的概率分布 :

（4）

然后，灰度直方图熵可以计算为：

（5）

形态特征是肺结节最直观的视觉特征，帮助医生更好的分析和判断病灶。本文从医学征象和几何方面描述结节的形态特征，如面积、直径、周长、细长度、圆形度、偏心率、矩形度、凹凸度等。其中，面积可用单个ROI区域里所有像素之和表示：

（6）

周长则计算ROI边界的像素点个数（L），代表了结构的复杂性特征。圆形度计算公式如下：

（7）

偏心率由椭圆的半焦轴除以半长轴获得，其数值越大表示椭圆越扁。其他形态特征参考[2]。

4. 机器学习之朴素贝叶斯算法

由于本文使用的样本量较小，低维特征值，固采用机器学习中的朴素贝叶斯（Naive Bayesian classification)算法来对疑似肺结节区域进行诊断。其基本思想如下：对于给出的待分项，分别求解符合此条件下各类别出现的概率，然后选择条件概率最大的类别作为输出项。统计得到各类别下（本文为2类别）各个特征属性的条件概率估计。假设各个特征属性是条件独立的，根据贝叶斯定理，可得：

（8）

三、性能分析

1. ROI特征提取结果

图3. ROI区域自动提取过程。

基于图像处理的肺结节实质ROI区域自动分割过程如图3.所示，其中图a为原始CT图像；图b为通过最佳阈值分割算法来分割的结果；图c为中心连通区域分割；图d为背景滤噪；图e为躯干模板与OTSU分割掩膜；图f为初步肺部区域分割；图g为肺实质背景轮廓；图h为肺部实质分割；图为ROI区域提取。在获取单幅肺实质数据后，容易发现大部分区域灰度值较低，而其他高灰度区域可能同时包含结节、血管、脏器边缘等。因此，在ROI区域提取的时候，应当尽可能的将ROI区域进行全面分割，对实质区域的局部最后阈值进行计算，从而得到二值图像。

在获取到ROI区域后（图3.i所示），将用本文上述提到的方法分别对每个ROI区域进行特征提取，从而进行模型训练。ROI区域特征提取如图4.所示。在对感兴趣区域标识中，结合连通域标记，根据本文上述提到的算法，可得到ROI面积、周长、圆形度、灰度均值、熵等特征值，单个ROI区域特征向量如表1.所示，右侧为像素值颜色标尺。

表1 单个ROI特征值示例

图4.ROI区域特征提取。

2. 自动检测结果分析

本文使用的模型训练数据源为LIDC-IDRI（Lung Imaging Database Consortium），该数据集是由美国国家癌症研究所发起收集的，由胸部医学影像文件（如CT片）和对应的专家标注的诊断结果病变信息XML文件组成。其中包含直径在3-30毫米范围内的结节信息。其中，每张图像有512*512个像素点，肺部切片厚度为2.5毫米。本文选取LIDC数据集中CT影像2882幅，自动识别诊断结果如表2.所示。

表2.诊断结果。

本文采用70%的样本空间为训练集，30%的则为测试集。通过朴素贝叶斯分类器进行模型训练，最后诊断结果的准确率为92%，漏诊率为10%。对比采用传统的人工诊断，准确率则为60%至98%之间（根据医生的经验不同），漏诊率为20%。计算机对每组患者图像的诊断时间平均为2.3秒，每组图像约140幅CT影像，而人工识别的时间大致为5至10分钟，特别是诊断微小结节。本文召回率为86%，既由计算机诊断出的全部ROI区域中，有86%的ROI为真阳性。主要原因是：1）微小结节难以检测，其特征很难与血管分离，尤其是样本比例较少时；2）结节区域与血管相粘连，灰度特征不明显；3）与肺壁相粘连，很难完整分割该区域。

四、结束语

本文计算机以自动诊断肺结节为实例，详细阐述了人工智能助力医疗影像处理的流程。其中分别包括ROI区域特征提取系统模型和机器学习算法模型。经过对2882幅医学CT影像处理，计算机辅助诊断肺结节的准确率为92%，而平均诊断时间远远小于医院专家的诊断时间，这得力于计算机辅助诊断系统的快速发展。由于样本空间和样本质量等因素，计算机辅助诊断还需要在微小结节的诊断上进行探索，并且与基于卷积运算的深度神经网络相结合，从而提升其性能，更好的节省医院资源。同时，也为患者提供保障，使得人工智能技术在医疗领域更加完美的应用。

参考文献

[1] T. A. Bley et al., “Comparison of radiologist and CAD performance in the detection of CT –confirmed subtle pulmonary nodules on digital chest radiographs,” Invest. Radiol., vol. 43, no. 6, pp. 343-348, 2008.

[2] B.-W. Hong and B.-S. Sohn, “Segmentation of regions of interest in mammograms in a topographic approach,” IEEE Trans. Inf. Technol. Biomed., vol. 14, no. 1, pp. 129_139, Jan. 2010.

[3] C. Bahlmann, X. Li, and K. Okada, “Local pulmonary structure classification for computer-aided nodule detection,” Proc. SPIE, pp. 61445I-1_61445I-11, 2006.