人工智能内镜检查视频 (人工智能消化道内镜)

·论著·

引用本文:王静, 陈茜, 吴练练, 等. 基于人工智能的自动内镜下病灶尺寸测量系统(含视频)[J]. 中华消化内镜杂志, 2022, 39(12): 965-971. DOI: 10.3760/cma.j.cn321463-20210111-00025.

基于人工智能的自动内镜下病灶尺寸测量系统

王静 陈茜 吴练练 周巍 张晨霞 罗任权 于红刚

武汉大学人民医院消化内科 消化系统疾病湖北省重点实验室 湖北省消化疾病微创诊治医学临床研究中心,武汉 430060

通信作者:于红刚,Email:yuhonggang@whu.edu.cn

【摘要】 目的 开发一个基于人工智能的自动内镜下病灶尺寸测量系统,并测试其实时测量白光内镜下病灶尺寸的能力。方法 测量系统由3个模型组成:首先由模型1识别视频的连续图片中有无活检钳,有钳者标记钳叶轮廓;随后由模型2对有钳图片进行分类,分为张钳图片和未张钳图片;与此同时,模型3识别视频的连续图片中有无病灶,有病灶者标记边界;最后系统根据活检钳钳叶轮廓与病灶边界的像素对比,实时计算出病灶尺寸。数据集1由回顾性收集的武汉大学人民医院2017年1月1日—2019年11月30日4 835张图片组成,用于模型的训练和验证;数据集2由前瞻性收集的武汉大学人民医院内镜中心2019年12月1日—2020年6月4日检查拍摄的图片组成,用于测试模型分割活检钳边界和病灶边界的能力;数据集3由151个模拟病灶的302张图片组成,每个模拟病灶包括活检钳倾斜角度较大(与病灶垂直线夹角45°)和倾斜角度较小(与病灶垂直线夹角10°)情况下的图片各1张,用于测试模型在活检钳不同状态下测量病灶尺寸的能力;数据集4为视频测试集,由前瞻性收集的武汉大学人民医院内镜中心2019年8月5日—2020年9月4日检查拍摄的视频组成。以内镜医师复核后结果或内镜手术病理作为金标准,观察模型1识别有无活检钳的准确率、模型2分类活检钳状态(张钳或未张钳)的准确率和模型3识别有无病灶的准确率,用交并比(intersection over union,IoU)评价模型1的活检钳钳叶分割效果和模型3的病灶分割效果,用绝对误差和相对误差评价系统的病灶尺寸测量能力。结果 (1)数据集2共纳入1 252张图片,有钳图片821张(其中张钳图片401张、未张钳图片420张)、无钳图片431张;包含病灶图片640张、不包含病灶图片612张。模型1判断无钳图片433张(430张准确)、有钳图片819张(818张准确),识别有无活检钳的准确率为99.68%(1 248/1 252),以818张模型1准确判断有钳图片的数据统计模型1的活检钳钳叶分割效果,平均IoU为0.91(95% CI :0.90~0.92)。使用模型1准确判断的818张有钳图片评价模型2的活检钳状态分类准确率,模型2判断张钳图片384张(382张准确)、未张钳图片434张(416张准确),模型2的活检钳状态分类准确率为97.56%(798/818)。模型3判断包含病灶图片654张(626张准确)、不包含病灶图片598张(584张准确),识别有无病灶的准确率为96.65%(1 210/1 252),以626张模型3准确判断有病灶图片的数据统计模型3的病灶分割效果,平均IoU为0.86(95% CI :0.85~0.87)。(2)数据集3中:活检钳倾斜角度较小状态下系统病灶尺寸测量的平均绝对误差为0.17 mm(95% CI :0.08~0.28 mm),平均相对误差为3.77%(95% CI :0.00%~10.85%);活检钳倾斜角度较大状态下系统病灶尺寸测量的平均绝对误差为0.17 mm(95% CI :0.09~0.26 mm),平均相对误差为4.02%(95% CI :2.90%~5.14%)。(3)数据集4共纳入59例患者的59个内镜检查视频的780张图片,系统病灶尺寸测量的平均绝对误差为0.24 mm(95% CI :0.00~0.67 mm),平均相对误差为9.74%(95% CI :0.00%~29.83%)。结论 基于人工智能的自动内镜下病灶尺寸测量系统可以实现内镜下对病灶尺寸的准确测量,有望提高内镜医师对病灶尺寸估计的准确率。

【关键词】 人工智能; 内窥镜检查,消化系统; 病灶尺寸

基金项目:国家自然科学基金(81672387);湖北省消化疾病微创诊治医学临床研究中心项目(2018BCC337);湖北省重大科技创新项目(2018‑916‑000‑008)

An artificial intelligence‑based system for measuring the size of gastrointestinal lesions under endoscopy (with video)

Wang Jing, Chen Xi, Wu Lianlian, Zhou Wei, Zhang Chenxia, Luo Renquan, Yu Honggang

Department of Gastroenterology, Renmin Hospital of Wuhan University; Hubei Key Laboratory of Digestive Diseases; Hubei Clinical Research Center for Minimally Invasive Diagnosis and Treatment of Digestive Diseases, Wuhan 430060, China

Corresponding author: Yu Honggang, Email: yuhonggang@whu.edu.cn

【Abstract】 Objective To develop an artificial intelligence-based system for measuring the size of gastrointestinal lesions under white light endoscopy in real time. Methods The system consisted of 3 models. Model 1 was used to identify the biopsy forceps and mark the contour of the forceps in continuous pictures of the video. The results of model 1 were submitted to model 2 and classified into open and closed forceps. And model 3 was used to identify the lesions and mark the boundary of lesions in real time. Then the length of the lesions was compared with the contour of the forceps to calculate the size of lesions. Dataset 1 consisted of 4 835 images collected retrospectively from January 1, 2017 to November 30, 2019 in Renmin Hospital of Wuhan University, which were used for model training and validation. Dataset 2 consisted of images collected prospectively from December 1, 2019 to June 4, 2020 at the Endoscopy Center of Renmin Hospital of Wuhan University, which were used to test the ability of the model to segment the boundary of the biopsy forceps and lesions. Dataset 3 consisted of 302 images of 151 simulated lesions, each of which included one image of a larger tilt angle (45° from the vertical line of the lesion) and one image of a smaller tilt angle (10° from the vertical line of the lesion) to test the ability of the model to measure the lesion size with the biopsy forceps in different states. Dataset 4 was a video test set, which consisted of prospectively collected videos taken from the Endoscopy Center of Renmin Hospital of Wuhan University from August 5, 2019 to September 4, 2020. The accuracy of model 1 in identifying the presence or absence of biopsy forceps, model 2 in classifying the status of biopsy forceps (open or closed) and model 3 in identifying the presence or absence of lesions were observed with the results of endoscopist review or endoscopic surgery pathology as the gold standard. Intersection over union (IoU) was used to evaluate the segmentation effect of biopsy forceps in model 1 and lesion segmentation effect in model 3, and the absolute error and relative error were used to evaluate the ability of the system to measure lesion size. Results (1)A total of 1 252 images were included in dataset 2, including 821 images of forceps (401 images of open forceps and 420 images of closed forceps), 431 images of non-forceps, 640 images of lesions and 612 images of non-lesions. Model 1 judged 433 images of non-forceps (430 images were accurate) and 819 images of forceps (818 images were accurate), and the accuracy was 99.68% (1 248/1 252). Based on the data of 818 images of forceps to evaluate the accuracy of model 1 on judging the segmentation effect of biopsy forceps lobe, the mean IoU was 0.91 (95% CI : 0.90-0.92). The classification accuracy of model 2 was evaluated by using 818 forceps pictures accurately judged by model 1. Model 2 judged 384 open forceps pictures (382 accurate) and 434 closed forceps pictures (416 accurate), and the classification accuracy of model 2 was 97.56% (798/818). Model 3 judged 654 images containing lesions (626 images were accurate) and 598 images of non-lesions (584 images were accurate), and the accuracy was 96.65% (1 210/1 252). Based on 626 images of lesions accurately judged by model 3, the mean IoU was 0.86 (95% CI : 0.85-0.87). (2) In dataset 3, the mean absolute error of systematic lesion size measurement was 0.17 mm (95% CI : 0.08-0.28 mm) and the mean relative error was 3.77% (95% CI : 0.00%-10.85%) when the tilt angle of biopsy forceps was small. The mean absolute error of systematic lesion size measurement was 0.17 mm (95% CI : 0.09-0.26 mm) and the mean relative error was 4.02% (95% CI : 2.90%-5.14%) when the biopsy forceps was tilted at a large angle. (3) In dataset 4, a total of 780 images of 59 endoscopic examination videos of 59 patients were included. The mean absolute error of systematic lesion size measurement was 0.24 mm (95% CI : 0.00-0.67 mm), and the mean relative error was 9.74% (95% CI : 0.00%-29.83%). Conclusion The system could measure the size of endoscopic gastrointestinal lesions accurately and may improve the accuracy of endoscopists.

【Key words】 Artificial intelligence; Endoscopy, digestive system; Lesion size

Fund program: National Natural Science Foundation of China (81672387); Project of Hubei Clinical Research Center for Digestive Diseases Minimally Invasive Incision (2018BCC337); Hubei Major Science and Technology Innovation Project (2018‑916‑000‑008)

在消化道内镜检查过程中常需要进行病灶尺寸测量,病灶的尺寸是多种疾病危险分级、治疗方式选择的依据之一,因此内镜下病灶尺寸的准确测量是患者接受正确治疗的必要前提之一。

为了使通过内镜看到的视野更大,内镜配备了一个广角镜头,但广角镜头带来更大视野的同时也带来了图像的畸变,并且视野中央与视野边缘的畸变程度不同,越靠近视野边缘画面的压缩程度越大,这种非线性的畸变使得准确评估病灶大小变得更为困难,易造成内镜医师对病灶尺寸的估计不够准确[1‑2]。

为了降低畸变的影响,以往的研究也提出了很多方法,如根据内镜型号建立校正公式、在视野中加入网格纸进行提示和在内镜上加入激光结构等[3‑5]。但这些方法往往操作耗时、在实际工作中可行性较差,或者需要改变内镜的结构、增加了内镜制造成本,因此目前为止尚无一种方法能够被广泛推广与验证。近年来人工智能被广泛应用于医学领域,在消化内镜方面,人工智能被用于辅助诊断疾病、质量控制和辅助操作等[6‑8]。本研究旨在开发一个基于人工智能的全自动内镜下病灶尺寸测量系统,在不引入新工具的前提下,内镜医师只需要置入活检钳等常用内镜下器械即可实时自动预测病灶的尺寸。

对象与方法

一、研究对象

本研究经武汉大学人民医院伦理委员会审批通过(批准文号:2019K‑C054),研究中使用的内镜图片、视频均为日本奥林巴斯290系列或富士590系列内镜拍摄,图片保存格式为jpg,视频保存格式为mp4。

1.数据集1:用于训练和验证模型。回顾性收集2017年1月1日—2019年11月30日于武汉大学人民医院内镜中心检查拍摄的图片,同一例患者的所有类似图片只纳入1张。图片纳入标准:包含活检钳或病灶(息肉、溃疡或癌等)的白光内镜图片。图片排除标准:(1)病灶充满视野的图片,如较大的侧向发育型息肉、胃炎等的图片;(2)低质量图片,如出血、冲水、包含泡沫、包含透明帽等的图片;(3)活检钳或病灶距镜头过远(肉眼无法辨认活检钳或病灶轮廓)或过近(活检钳钳身或病灶未完整暴露在视野中)的图片。共收集到来自492例患者的4 835张图片。

2.数据集2:为前瞻性图片测试集,用于测试模型分割活检钳钳叶边界及病灶边界的能力。前瞻性收集2019年12月1日—2020年6月4日于武汉大学人民医院内镜中心检查拍摄的图片。图片纳入标准:(1)包含活检钳或病灶(息肉、溃疡或癌等)的白光内镜图片。图片排除标准:(1)病灶充满视野的图片,如较大的侧向发育型息肉、胃炎等的图片;(2)低质量图片,如出血、冲水、包含泡沫、包含透明帽等的图片;(3)活检钳或病灶距镜头过远(肉眼无法辨认活检钳或病灶轮廓)或过近(活检钳钳身或病灶未完整暴露在视野中)的图片。共纳入来自400例患者的401张张开活检钳的图片(以下简称:张钳图片)、420张未张开活检钳的图片(以下简称:未张钳图片)和431张无活检钳的图片(以下简称:无钳图片),合计1 252张图片。

3.数据集3:为模拟病灶图片测试集,用于测试模型在活检钳不同状态下测量病灶尺寸的能力。使用淡粉色黏土(成分:聚乙烯醇,色素;山东智博文具有限公司生产)捏出不同形态及大小的模拟病灶,使用游标卡尺测量表面最远两端的距离并作为金标准。将模拟病灶放置在淡粉色平面上,将活检钳通过活检孔道紧邻模拟病灶放置在平面上,拍摄图片。共拍摄151个模拟病灶的302张图片,每个模拟病灶在活检钳倾斜角度较大(与病灶垂直线夹角45°)和倾斜角度较小(与病灶垂直线夹角10°)的情况下各拍摄一张图片,病灶尺寸的分布参照文献[9]中息肉尺寸的分布。

4.数据集4:为前瞻性视频测试集。前瞻性收集2019年8月5日—2020年9月4日于武汉大学人民医院内镜中心检查拍摄的59例患者的59个视频。视频纳入标准:(1)包含活检钳和息肉(其他病灶在切除后固定过程中会改变病灶原本的形状,因此不纳入)的视频;(2)视频中包含张开的活检钳紧邻病灶放置在黏膜上的部分;(3)内镜医师报告了病灶的尺寸;(4)整块切除的病灶;(5)使用冷活检钳、冷圈套器或热圈套器切除的息肉:(6)病灶直径<15 mm,并经病理证实。视频排除标准:(1)低质量视频,如出血、冲水、包含泡沫、包含透明帽等,影响观察息肉和活检钳的视频;(2)整个视频中活检钳或病灶距镜头过远(肉眼无法辨认活检钳或病灶轮廓)或过近(活检钳钳身或病灶未完整暴露在视野中);(3)在取出过程中发生组织破碎的视频。数据集4中的每一视频按照每秒5帧剪辑为图片,共获得780张图片,用于病灶尺寸测量系统的测试。某一患者的所有图片的预测结果取平均值作为该例患者的最终预测结果,并与该例病理结果中的病灶尺寸(金标准)作比较。

二、病灶尺寸测量系统的组成及工作流程

病灶尺寸测量系统主要由3个模型组成,工作流程如下:(1)首先,由模型1识别视频的连续图片中有无可分割的活检钳区域。如模型1识别到可分割的区域,则标记图片中活检钳钳叶的轮廓,并将描绘的结果呈递给模型2;如模型1未识别到可分割的区域,则此图片自动分类为无钳图片,模型2无需分析这些图片。(2)随后,模型2将模型1呈递来的图片进一步分类为张钳图片和未张钳图片。张钳图片中,活检钳钳叶之间的像素长度可以与病灶轮廓的像素长度进行比较。(3)与此同时,模型3描绘出在视频连续图片中识别到的病灶的边界。在同一张图片中,分割出的病灶轮廓可与图片中的活检钳两钳叶之间的像素值进行比较。如模型3未识别出可分割的病灶区域,则此图片自动分类为无病灶图片。(4)最后,该系统根据活检钳钳叶轮廓与病灶轮廓的像素对比,实时计算息肉的尺寸。

1.模型1:活检钳钳叶分割模型。使用UNet++模型训练,分割图片中的活检钳钳叶。模型1工作示意图见图1、2。

2.模型2:活检钳分类模型。使用ResNet‑50模型训练,将模型1分割后的图片分为张钳图片和未张钳图片。ResNet‑50是包含50层的卷积神经网络,它已经由超过1千万张图片预训练过,具有较强的图片分类能力。

3.模型3:病灶分割模型。使用UNet++模型训练,分割图片中的病灶。模型3工作示意图见图3。

三、构建模型

3名医学生使用深度学习在线标记平台VGG Image Annotator中的自由形状工具,标记数据集1和数据集2中各图片中的活检钳钳叶边缘,无钳图片不需要标记;另外,参考内镜手术图片和病理结果,标记数据集1和数据集2中各图片中的病灶边缘。标记后的结果由1名内镜医师复核,标记不准确的给予修改。经内镜医师复核后的标记作为金标准。

将数据集1中标记好的图片分为训练集和验证集,各个模型的训练集图片数与验证集图片数的比例约为9∶1,同一例患者的图片不会被分配到两个不同的图集中。使用迁移学习将ResNet‑50模型的最后一层替换为本研究的数据集,并微调所有层中的参数。使用基于TensorFlow 1.12.2的深度学习框架的Google Keras 2.1.5进行训练和验证。记录模型的学习曲线,训练直至模型的误差连续10轮不再降低。最终,3 612张图片用于模型1、2的训练,其中1 741张图片用于模型3的训练;401张图片用于模型1、2的验证,其中181张图片用于模型3的验证。

人工智能内镜检查视频,人工智能胃肠镜

图1 模型1工作示意图(活检钳张开状态) 1A:标记前的原图;1B:在原图上标记活检钳钳叶边缘轮廓(绿色线);1C:根据边缘生成活检钳钳叶的最小外接矩形(绿色矩形,为了保持画面整洁,矩形内部的活检钳钳叶边缘轮廓线已省略) 图2 模型1工作示意图(活检钳未张开状态) 2A:标记前的原图;2B:在原图上标记活检钳钳叶边缘轮廓(绿色线);2C:根据边缘生成活检钳钳叶的最小外接矩形(绿色矩形,为了保持画面整洁,矩形内部的活检钳钳叶边缘轮廓线已省略) 图3 模型3工作示意图(绿色矩形为活检钳最小外接矩形,红色线为病灶轮廓,蓝色矩形为病灶最小外接矩形) 3A:胃息肉;3B:胃溃疡

四、测试模型

使用数据集2对系统的活检钳钳叶分割效果、活检钳分类效果以及病灶分割效果进行评估,使用数据集3、4对系统的病灶尺寸测量能力进行评估。

五、观察指标

1.准确率:包括模型1识别有无活检钳的准确率,模型2分类活检钳状态(张钳或未张钳)的准确率,模型3识别有无病灶的准确率。

2.活检钳钳叶和病灶分割效果:用交并比(intersection over union,IoU)评价模型1的活检钳钳叶分割效果和模型3的病灶分割效果,IoU=预测范围与金标准的交集/预测范围与金标准的并集,计算平均IoU。

3.病灶尺寸测量能力:用绝对误差和相对误差评价系统的病灶尺寸测量能力,绝对误差=|预测值-金标准|,相对误差=|预测值-金标准|/金标准。

结 果

一、数据集2中的测试结果

1.模型1的测试结果:使用1 252张图片进行测试,模型1对图片内有无活检钳的识别结果见表1。模型1识别有无活检钳的准确率为99.68%(1 248/1 252)。其中,818张模型1准确判断有钳的图片用于评价模型1的活检钳钳叶分割效果,平均IoU为0.91(95% CI :0.90~0.92)。

表1 数据集2中模型1对图片内有无活检钳的识别结果(张)

模型1判断结果

图片数

金标准判定结果

无钳图片

有钳图片

无钳图片

433

430

3

有钳图片

819

1

818

合计

1 252

431

821

2.模型2的测试结果:使用模型1呈递来的819张“有钳图片”进行测试,模型2对图片内活检钳状态的分类结果见表2。其中,818张模型1准确判断有钳的图片用于评价模型2的活检钳状态分类准确率,结果为97.56%(798/818)。

表2 819张模型1判断为“有钳图片”中模型2对图片内活检钳状态的分类结果(张)

模型2分类结果

图片数

金标准判定结果

张钳图片

未张钳图片

无钳图片

张钳图片

384

382

2

0

未张钳图片

435

18

416

1

合计

819

400

418

1

3.模型3的测试结果:使用1 252张图片进行测试,包括640张包含病灶的图片(其中362张息肉图片、278张非息肉病灶图片)和612张不包含病灶的图片,模型3对图片内病灶的识别结果见表3。模型3识别有无病灶的准确率为96.65%(1 210/1 252)。使用626张模型3准确判断有病灶的图片用于评价模型3的病灶分割效果,平均IoU为0.86(95% CI :0.85~0.87):(1)其中,病灶尺寸≤10 mm的图片366张,模型3病灶分割的平均IoU为0.87(95% CI :0.86~0.88);病灶尺寸>10 mm的图片260张,模型3病灶分割的平均IoU为0.86(95% CI :0.85~0.86)。(2)其中,息肉图片358张,模型3息肉型病灶分割的平均IoU为0.87(95% CI :0.86~0.88);非息肉图片268张,模型3非息肉型病灶分割的平均IoU为0.85(95% CI :0.84~0.86)。

表3 数据集2中模型3对图片内病灶的识别结果(张)

模型3分类结果

图片数

金标准判定结果

包含病灶图片

不包含病灶图片

包含病灶图片

654

626

28

不包含病灶图片

598

14

584

合计

1 252

640

612

二、数据集3中的测试结果

使用活检钳倾斜角度较小(与病灶垂直线夹角10°)的151张图片测试时,病灶尺寸测量的平均绝对误差为0.17 mm(95% CI :0.08~0.28 mm),平均相对误差为3.77%(95% CI :0.00%~10.85%)。在病灶尺寸≤10 mm的138张图片中,病灶尺寸测量的平均绝对误差为0.01 mm(95% CI :0.00~0.05 mm),平均相对误差为2.76%(95% CI :0.00%~9.24%)。其中,在病灶尺寸≤2 mm的6张图片中,病灶尺寸测量的平均相对误差较大,为28.33%(95% CI :0.00%~43.71%);在病灶尺寸>10 mm的13张图片中,病灶尺寸测量的平均绝对误差为1.92 mm(95% CI :1.52~2.31 mm),平均相对误差为14.50%(95% CI :11.10%~17.90%)。

使用活检钳倾斜角度较大(与病灶垂直线夹角45°)的151张图片测试时:病灶尺寸测量的平均绝对误差为0.17 mm(95% CI :0.09~0.26 mm),平均相对误差为4.02%(95% CI :2.90%~5.14%)。

三、视频集中的测试结果

在59例患者59个内镜检查视频780张图片的测试中,系统病灶尺寸测量的平均绝对误差为0.24 mm(95% CI :0.00~0.67 mm),平均相对误差为9.74%(95% CI :0.00%~29.83%)。在36例病灶尺寸1~<4 mm的患者中,系统病灶尺寸测量的绝对误差均≤1 mm,其中有3例(8.33%)临床医师报告的绝对误差>1 mm;在18例病灶尺寸4~<7 mm的患者中,系统病灶尺寸测量的绝对误差均≤1 mm,其中有4例(22.22%)临床医师报告的绝对误差>1 mm;在5例病灶尺寸7~12 mm的患者中,有1例系统病灶尺寸测量的绝对误差>1 mm,有1例临床医师报告的绝对误差>1 mm。

讨 论

内镜检查一直是胃肠道疾病的常用检查方法。由于病灶大小往往是决定疾病预后与治疗的重要因素,因此在内镜检查中通常需要报告病灶尺寸。但内镜广角镜头使得内镜医师很难通过内镜准确测量病灶尺寸,有研究发现内镜医师测量病灶的误差大小与内镜医师的经验无关,内镜医师无法通过增加操作例数提高测量的准确率[2,10]。这种差异不仅会使得不同医师报告的病灶尺寸标准不同、给患者提供的治疗建议不同,而且使得很多基于病灶尺寸的指南与规范不能在内镜医师之间通用[11‑13],比如当下广泛倡导的切除-丢弃策略,在放大内镜下将小息肉分为腺瘤与非腺瘤,让非腺瘤小息肉不必再接受病理检查,节约了医疗资源,但同时对内镜下准确测量息肉尺寸提出了更高的要求——仅依靠内镜下测量息肉尺寸。因此,在倡导光学诊断的背景下,准确测量病灶尺寸显得尤为重要。

曾有许多研究探索过准确测量息肉尺寸的新方法,最常用的方法包括使用测量尺、使用校正工具等,但这些方法要么需要花费较长的时间,要么需要在内镜上安装额外的工具;也有很多研究推荐使用体外测量方法,但切除息肉时常常出现切除较多的组织或组织破碎的情况,这时体外测量的准确率就相应降低[3,14]。目前,上述新方法都未能在临床上广泛使用,内镜医师迫切需要一个方便准确的体内测量方法。本研究成功构建了一个基于人工智能的全自动内镜下病灶尺寸测量系统,计算出的数据实时显示在屏幕左侧,内镜医师在其认为效果最好的位置定图保存图片即可。在方便性方面,本系统选择了使用内镜常规器械——活检钳进行辅助测量,无需额外使用工具,至于其他器械亦可纳入本系统作为病灶尺寸测量的标尺,系统自动识别器械类型即可计算病灶尺寸[15],并且器械的摆放要求也很容易完成,不会增加内镜医师操作的时间。在准确性方面,本系统不仅使用了前瞻性视频测试集,还使用了模拟病灶测试集进行验证,结果显示各模型均有较好的表现。在前瞻性视频测试集中,内镜下病灶的畸变、热切除过程中组织的收缩、切除后25%甲醛溶液的处理,都使得病灶尺寸的测量缺乏真正的金标准;在模拟病灶测试集中,模拟病灶的尺寸以游标卡尺测量的结果作为金标准,内镜的角度、黏土的颜色都与真实的肠镜类似,可作为前瞻性视频测试集的补充。

许多研究讨论过息肉固定前后尺寸变化的问题。Turner等[11]发现,息肉固定前测量的数据显著大于体内测量和固定后测量的数据,但固定后测量的数据波动更小。固定前的测量结果显然比固定后的测量结果更接近真实值,但现行的指南都是基于固定后的息肉尺寸制定的,之所以采取固定后的测量结果,是因为固定后的测量结果更具有连续性,未出现终端数字偏好的问题。使用人工智能辅助测量病灶尺寸,同样能够减少内镜医师对终端数字的偏好,并且在体内即可测量,更接近真实状态。

在模拟病灶测试集中,模型在识别≤2 mm的病灶时误差较大:一方面是因为这些病灶尺寸过小,接近报告的分度值;另一方面是这些病灶与活检钳的长度差距较大,活检钳受桶形畸变的影响更大。另外,模型在识别>10 mm的病灶时出现了更大的误差,这是因为病灶更靠近边界,此时图片压缩程度更大。我们在预实验中发现,模型在测量>15 mm的病灶尺寸时误差>1 mm,为了保证绝对误差≤1 mm,本系统的病灶尺寸适用范围在1~15 mm。在肠息肉中,息肉的尺寸越大,发展为腺癌的可能性就越大,≤10 mm的息肉随访间隔相同,>10 mm的息肉随访间隔缩短[16‑18]。适用病灶范围的设置,保证了1~<3 mm和11~15 mm的病灶不会由于误差改变随访间隔[11]。

本研究仍存在一些局限性:(1)本研究中仅展示了将活检钳作为比较标尺,从而预测病灶尺寸的情况,这是因为在内镜操作中活检钳的使用频率较高,我们正在加入其他内镜器械,模型自动识别器械种类,给出相应的结果。(2)本研究的视频验证中缺乏真正的金标准,虽然我们还是按照内镜研究的传统将病理结果作为金标准,但在小病灶中,切除、固定的过程可能带来较大的误差;在大病灶中,切除后的标本需要展平固定,病理报告的病灶尺寸都与原本的尺寸有不可忽视的偏差。因此,我们加入了体外模拟病灶对系统进行验证,模拟病灶的金标准更准确,内镜的拍照角度与体内类似,可与体内试验互为补充。(3)本系统中模型可以实时测量病灶的尺寸,但却未设计自动给出病灶尺寸的功能。内镜操作中的情况多变,量化困难,模型很难自动识别出哪一个视野是最适合测量病灶尺寸的,因此将病灶尺寸的决定权回归医师。待纳入更多数据后,可以训练相应的模型实现病灶尺寸的自动测量与报告。

综上所述,本研究开发了一个基于人工智能的自动内镜下病灶尺寸测量系统,并在不同的数据集中对系统进行了测试,该系统有望提高内镜医师对病灶尺寸估计的准确率,使患者接受更适当的治疗。

利益冲突 所有作者声明不存在利益冲突

作者贡献声明

王静、陈茜:酝酿和设计实验,实施研究,数据采集、分析和解释,文章撰写,统计分析;吴练练:酝酿和设计实验,实施研究,数据采集,材料支持,指导、支持性贡献;周巍、张晨霞、罗任权:实施研究,采集数据;于红刚:酝酿和设计实验,获取研究经费

参考文献

[1] Sakata S, Klein K, Stevenson A, et al. Measurement bias of polyp size at colonoscopy[J]. Dis Colon Rectum, 2017,60(9):987-991. DOI: 10.1097/DCR.0000000000000859.

[2] Chaptini L, Chaaya A, Depalma F, et al. Variation in polyp size estimation among endoscopists and impact on surveillance intervals[J]. Gastrointest Endosc, 2014,80(4):652-659. DOI: 10.1016/j.gie.2014.01.053.

[3] Martínez F, Ruano J, Gómez M, et al. Estimating the size of polyps during actual endoscopy procedures using a spatio-temporal characterization[J]. Comput Med Imaging Graph, 2015,43:130-136. DOI: 10.1016/j.compmedimag.2015.01.002.

[4] Sakata S, McIvor F, Klein K, et al. Measurement of polyp size at colonoscopy: a proof-of-concept simulation study to address technology bias[J]. Gut, 2018,67(2):206-208. DOI: 10.1136/gutjnl-2016-312915.

[5] Visentini-Scarzanella M, Kawasaki H, Furukawa R, et al. A structured light laser probe for gastrointestinal polyp size measurement: a preliminary comparative study[J]. Endosc Int Open, 2018,6(5):E602-609. DOI: 10.1055/a-0577-2798.

[6] Chen M, Wang J, Xiao Y, et al. Automated and real-time validation of gastroesophageal varices under esophagogastroduodenoscopy using a deep convolutional neural network: a multicenter retrospective study (with video)[J]. Gastrointest Endosc, 2021,93(2):422-432. DOI: 10.1016/j.gie.2020.06.058.

[7] An P, Yang D, Wang J, et al. A deep learning method for delineating early gastric cancer resection margin under chromoendoscopy and white light endoscopy[J]. Gastric Cancer, 2020,23(5):884-892. DOI: 10.1007/s10120-020-01071-7.

[8] Wu L, Zhang J, Zhou W, et al. Randomised controlled trial of WISENSE, a real-time quality improving system for monitoring blind spots during esophagogastroduodenoscopy[J]. Gut, 2019,68(12):2161-2169. DOI: 10.1136/gutjnl-2018-317366.

[9] Plumb AA, Nickerson C, Wooldrage K, et al. Terminal digit preference biases polyp size measurements at endoscopy, computed tomographic colonography, and histopathology[J]. Endoscopy, 2016,48(10):899-908. DOI: 10.1055/s-0042-108727.

[10] Margulies C, Krevsky B, Catalano MF. How accurate are endoscopic estimates of size?[J]. Gastrointest Endosc, 1994,40(2 Pt 1):174-177. DOI: 10.1016/s0016-5107(94)70162-8.

[11] Turner JK, Wright M, Morgan M, et al. A prospective study of the accuracy and concordance between in-situ and postfixation measurements of colorectal polyp size and their potential impact upon surveillance[J]. Eur J Gastroenterol Hepatol, 2013,25(5):562-567. DOI: 10.1097/MEG.0b013e32835d1f2d.

[12] Rubio CA. A single method to document the size of endoscopically-excised colorectal polyps[J]. In Vivo, 2007,21(6):1103-1106.

[13] Schoen RE, Gerber LD, Margulies C. The pathologic measurement of polyp size is preferable to the endoscopic estimate[J]. Gastrointest Endosc, 1997,46(6):492-496. DOI: 10.1016/s0016-5107(97)70002-6.

[14] Yao K, Matsui T, Furukawa H, et al. A new stereoscopic endoscopy system: accurate 3-dimensional measurement in vitro and in vivo with distortion-correction function[J]. Gastrointest Endosc, 2002,55(3):412-420. DOI: 10.1067/mge.2002.121598.

[15] Ferlitsch M, Moss A, Hassan C, et al. Colorectal polypectomy and endoscopic mucosal resection (EMR): European Society of Gastrointestinal Endoscopy (ESGE) clinical guideline[J]. Endoscopy, 2017,49(3):270-297. DOI: 10.1055/s-0043-102569.

[16] Martínez ME, Baron JA, Lieberman DA, et al. A pooled analysis of advanced colorectal neoplasia diagnoses after colonoscopic polypectomy[J]. Gastroenterology, 2009,136(3):832-841. DOI: 10.1053/j.gastro.2008.12.007.

[17] Muto T, Bussey HJ, Morson BC. The evolution of cancer of the colon and rectum[J]. Cancer, 1975,36(6):2251-2270. DOI: 10.1002/cncr.2820360944.

[18] Johnson MR, Grubber J, Grambow SC, et al. Physician non-adherence to colonoscopy interval guidelines in the veterans affairs healthcare system[J]. Gastroenterology, 2015,149(4):938-951. DOI: 10.1053/j.gastro.2015.06.026.

DOI:10.3760/cma.j.cn321463-20210111-00025

收稿日期 2021-01-11 本文编辑 顾文景