从运动流中整合时序先验进行微创手术器械分割

在世界微创外科领域，机器人手术系统因手术创口小、操作精确平稳等优点，已日益普及。在机器人辅助微创手术中，分割手术器械对于器械姿态估计、追踪和控制具有重要作用。然而，在复杂的手术环境中分割器械却也是一个棘手的难题。

今天为大家介绍的论文是由香港中文大学和帝国理工大学联合发表的Incorporating Temporal Prior from Motion Flow for Instrument Segmentation in Minimally Invasive Surgery Video [1]，发表于MICCAI 2019，第一作者是 Yueming Jin。这篇文章提出了新颖的图像分割框架。该框架将预测得到的时序先验信息整合到注意力金字塔网络中，充分利用器械的运动信息，提高了图像分割精度；同时，该框架所使用的时序先验信息（temporal prior）也可以用于半监督学习。该方法在2017 MICCAI EndoVis Robotic Instrument Segmentation Challenge所有任务上的性能均明显超过了目前最好的结果。

下面是这篇工作的详细介绍：

在复杂的手术环境中准确地识别出器械需要更多的细节，视频图像中的时序信息能为识别任务提供指引。为此，作者提出的方法是：从视频图像的运动流（motion flow）中得到先验信息，再将先验信息整合到注意力金字塔网络中（称为MF-TAPNet）。具体来说，首先使用Unflow [2]方法计算相邻的两帧之间的光流（optical flow），能表示每个像素移动的幅度和方向。作者认为，对应的mask也会发生相同的位移。基于这个假设，结合光流和网络输出的上一帧分割图，去预测当前帧中器械的位置和形状。这一步骤称为time turner，得到的当前帧的预测图为接下来的分割网络提供了可靠的先验信息（temporal prior）。然后，将得到的prior加入分割网络，即时序金字塔网络（TAPNet）的瓶颈层（bottleneck layer）作为初始的注意力图（attention map）。此分割网络由多尺度的注意力模块（multi-stage attention guided modules，缩写为AG）组成。在这种金字塔结构中可以逐渐完善注意力图，提升细化特征，最终得到准确的分割结果。以AG5来解释注意力模块的具体操作（图1（c））：首先使用跳跃连接来拼接高维和低维特征，再用1×1卷积来降低拼接结果f_t⁵的通道数。p_t经过下采样和1×1卷积之后，与f_t⁵具有同样的维度，然后二者进行element-wise multiplication，提取prior识别出的特征。该结果再次与f_t⁵相加，并进行3×3卷积和sigmoid激活，产生下一个AG模块的attention map。

图1. (a)MF-TAPNet结构图. (b)时序注意力金字塔网络结构图. (c)注意力模块结构图

另外，该框架还可以用于进行半监督学习，处理间隔性标注的视频。使用time turner可以使算法在标注较少的情况下进行半监督学习。利用序列一致性，将对未标注帧的预测转换为相邻的已标注帧的预测，这样就可以计算该预测与已标注帧的mask之间的loss。当前一帧具有标注而当前帧没有时，简单地沿时序的反方向执行time turner即可实现半监督学习。

表1给出了在三个任务上不同框架进行四折交叉验证的分割结果，可以看到，TAPNet的性能比起之前的工作已经有所提升，而结合TAPNet和motion flow之后结果仍然能够继续提升。对于多类分割任务，采用加权的交叉熵loss。评价指标为两张mask之间的交并比和dice系数。图2为三种分割网络的结果对比。从上到下，对每个任务都选了连续的两帧以及它们对应的mask，图中第二行是图片对应的ground truth，第三行至第五行分别是PlainUNet、TAPNet和MF-TAPNet的分割结果。其中，MF-TAPNet对像素类别的判断最为准确。

表1. 分割结果对比（mean±std）

图2. 典型分割结果(a)二值分割(分割器械和背景组织).(b)器械结构分割(杆、腕部、钳口).(c)类型分割(外观相似的不同仪器)

对这篇论文的总结:

在手术器械分割任务中，即使拥有视频数据，很多的工作也还是只停留在二维图像的处理上。而手术场景比较复杂，又为手术器械的分割增加难度；此外，获得人工标注也是一件费时费力的事情。如何同时关注到标注的利用效率和分割精度应该是未来工作中的一个关注点。这篇文章在金字塔结构的基础上整合了时序信息，所使用的时序先验在半监督学习中只需要进行反向操作。实验结果表明，该方法不仅在分割结果上来带了明显提升，在临床研究中提升标注的使用效率上也具有很大潜力。

以上就是本次与大家分享的结合时序信息进行深度学习图像分割的文章，笔者水平有限，文中不当之处欢迎指正，再会！

参考文献

[1] Y. Jin, K. Cheng, Q. Dou, P. Heng, “Incorporating Temporal Prior from Motion Flow for Instrument Segmentation in Minimally Invasive Surgery Video,” 2019.

[2] S. Meister, J. Hur, S. Roth, “UnFlow: Unsupervised Learning of Optical Flow with a Bidirectional Census Loss,” 2018.

本文作者：张宇婕

指导老师：王连生

单位：厦门大学

医学图像计算青年研讨会（Medical Imaging Computing Seminar，MICS）创立于2014年，其宗旨是为医学图像领域的华人青年学者提供学术交流平台，增进相互之间的了解和友谊，帮助青年学者融入学术研究大家庭。MICS聚焦于近两年内的医学图像计算领域原创研究，欢迎医学图像处理、计算机视觉、人工智能等新理论、新方法、新应用的展示，以及影像与临床医学、基础医学深度交叉的突破性进展报告。首届MICS在医学图像领域著名学者、北卡罗来纳大学教堂山分校沈定刚教授的倡议下，于2014年12月在深圳大学举行。经过2015（济南）、2016（广州）、2017（上海）、2018（南京）、2019（苏州）的蓬勃发展，MICS从参会人数不足百人到吸引上千名专家学者参与，已迅速成为全国医学图像计算领域最具影响力的活动之一。2020年的MICS会议将于7月18~19日在大连举办，欢迎全球同道专家和同学共聚学术盛宴！

“医学图像计算青年研讨会”微信公众号

Related Posts

发表回复 取消回复

发表回复取消回复