卵巢囊肿超声的鉴别诊断 (卵巢囊肿恶性的超声显示)

术前区分良恶性附件肿块的简单超声规则：IOTA小组的前瞻性验证

目的： 前瞻性评估简单超声规则的诊断性能，以预测附件肿块的良性/恶性肿瘤，并测试恶性肿瘤风险指数、两种逻辑回归模型以及经验丰富的超声检查员对超声检查结果的主观评估的性能。对于附件肿块，简单的规则会产生不确定的结果。

设计： 对简单超声规则进行前瞻性时间和外部验证，以区分良性和恶性附件肿块。 这些规则包括预测恶性肿瘤（M 特征）的五个超声特征 （包括形状、大小、硬度和彩色多普勒检查结果）和预测良性肿瘤（B 特征）的五个超声特征。如果存在一个或多个 M 特征而没有 B 特征，则肿块被分类为恶性。如果存在一个或多个 B 特征而没有 M 特征，则将其分类为良性。如果 M 特征和 B 特征都存在，或者如果没有任何特征存在，则简单规则是不确定的。

设置： 八个国家的 19 个超声中心。

参与者： 1938 名患有附件肿块的女性，由每个中心的首席研究员按照标准化研究方案进行超声检查。参考标准切除的附件肿块的组织学分类为良性或恶性。

主要结果指标： 诊断敏感性和特异性。

结果： 1938例附件肿块患者中，1396例（72%）为良性肿瘤，373例（19.2%）为原发性浸润性肿瘤，111例（5.7%）为交界性恶性肿瘤，58例（3%）为转移性肿瘤。卵巢。简单的规则在 1501 个（77%）质量中产生了结论性结果，其敏感性为 92%（95% 置信区间为 89% 至 94%），特异性为 96%（94% 至 97%）。主观评估相应的敏感性和特异性分别为91%（88%至94%）和96%（94%至97%）。在 357 个肿块中，简单的规则产生了不确定的结果，并且具有 CA-125 测量的可用结果，主观评估的灵敏度为 89%（83% 至 93%），主观评估的灵敏度为 50%（42% 至 58%）。恶性肿瘤风险指数，逻辑回归模型1为89%（83%至93%），逻辑回归模型2为82%（75%至87%）；相应的特异性为78%（72%至83%）、84%（78%至88%）、44%（38%至51%）和48%（42%至55%）。使用简单规则作为分类测试和主观评估，对那些简单规则产生不确定结果的群众进行主观评估，其敏感性为 91%（88% 至 93%），特异性为 93%（91% 至 94%），相比之下，当对所有肿块使用主观评估时，敏感性为 90%（88% 至 93%），特异性为 93%（91% 至 94%）。

结论：使用简单的规则有可能改善女性附件包块的治疗。对于规则产生不确定结果的附件肿块，由经验丰富的超声检查员对超声检查结果进行主观评估是最准确的诊断测试；恶性肿瘤风险指数和两个回归模型没有用。

介绍：

在决定附件肿块患者的手术类型时， 估计恶性肿瘤的风险至关重要。良性肿块可以保守治疗或通过腹腔镜检查治疗，避免不必要的费用和发病率。 另一方面，I期卵巢癌围手术期破裂可能会使预后恶化。

经阴道超声检查是区分良性和恶性附件肿块的绝佳工具。 多项研究表明， 单房卵巢囊肿 发生恶性肿瘤的 风险非常低。 除单房囊肿外，存在其他形态特征， 例如乳头状结构和实性区域，以及多普勒超声确定的血管分布增加，与不同程度增加的恶性肿瘤风险相关。 已尝试通过使用评分系统、逻辑回归分析、神经网络和支持向量机创建预测模型来优化经阴道超声检查的诊断性能。然而，当对这些模型进行前瞻性测试时，它们的表现不如最初报告的那么好。恶性肿瘤风险指数是英国皇家妇产科学院推荐的测试，也是 Geomini 等人最近评论的一项测试。 另一方面，国际卵巢肿瘤分析 (IOTA) 研究中开发的两个逻辑回归模型（逻辑回归模型 1 和逻辑回归模型 2）在新中心和首次开发模型的单位中表现良好 ，但没有任何卵巢恶性肿瘤的模型或生化标记物被证明优于经验丰富的超声检查员对灰阶和彩色多普勒超声结果的主观评估。不幸的是，经验丰富的超声检查员的专业知识很难转移给经验不足的检查员。经验不足的检查员可能会通过评分系统和风险计算模型得到帮助，但批评是，一些基于超声的风险计算模型所需的超声信息太难在专家中心之外获得。

在之前的报告中，我们使用 IOTA 研究第一阶段收集的数据来开发简单且临床有用的基于超声的规则，用于区分良性和恶性附件肿块。我们制定了简单的规则，然后在一小群患者 (n=507) 中进行前瞻性验证。在时间验证上， 简单的规则对 76% 的所有肿瘤产生了结论性结果，其中对恶性肿瘤的敏感性为 95%，特异性为 91%，阳性似然比为 10.5，阴性似然比为0.06。 我们的结论是，“使用简单的基于超声的规则，可以将普通肿瘤群体中的大多数附件肿瘤正确分类为良性或恶性。对于无法使用简单规则进行分类的肿瘤，由专家检查员进行超声检查可能会有所帮助。”

这里报道的研究的目的是在大量研究人群中进行前瞻性时间和外部验证，以评估先前发表的基于简单超声的规则在手术前区分良性和恶性附件肿块的能力。第二个目的是确定经验丰富的超声检查员对超声检查结果进行主观评估的诊断性能、恶性肿瘤风险指数以及逻辑回归模型 1 和 2 用于肿瘤时，简单的规则会产生不确定的结果。

方法

在这项前瞻性研究（IOTA 第 2 期研究）中 ，我们检查了简单规则在接受附件肿块手术的女性群体中的表现。当地临床医生根据当地规则和临床判断做出手术决定。我们遵循诊断准确性研究倡议报告标准的指南。

招聘中心

我们在开发规则的七个中心和之前未参与任何 IOTA 研究的另外 12 个中心（新中心）测试了这些规则。 共有来自 8 个国家的 19 个中心参与。

患者

我们纳入了至少有一个附件肿块的患者，并由一位参与中心的首席研究员进行了超声检查。对于双侧附件肿块，我们将超声形态最复杂的肿块纳入统计分析。如果两个肿块具有相似的超声形态，我们将最大的肿块或最容易通过经阴道超声到达的肿块纳入其中。我们排除了怀孕或拒绝经阴道超声检查的患者以及超声检查后 120 天内未手术切除肿块的患者。

数据采集

为该研究开发了专用的安全数据收集系统（IOTA 2 研究屏幕）。为每个患者的记录自动生成唯一的标识符。每个中心的临床医生只能查看或更新自己中心的患者记录。我们通过不传输患者姓名并对所有数据通信进行加密来确保数据安全。通过 astraia 系统中的客户端检查以及一名生物统计学家和两名专家超声检查员的手动检查，确保了数据的完整性和完整性。

临床变量

标准化历史记录的获取方式与 IOTA 第一阶段研究相同。其中包括有关卵巢癌和乳腺癌个人病史的信息；一级亲属患有卵巢癌或乳腺癌的人数；以及患者的年龄、绝经状态和当前的激素治疗。绝经前接受子宫切除术的50岁或以上女性被定义为绝经后。

超声波检查

在所有情况下，参与中心的首席研究员都以与 IOTA 第一阶段研究相同的标准化方式进行了经阴道超声扫描。 主要研究者是经过全面培训的妇科医生或放射科医生，对妇科超声特别感兴趣，并在该领域拥有五年以上的经验。 他们使用了各种经阴道探头频率在 5 到 12 MHz 之间的超声波机器。研究人员还使用经腹部超声检查来检查使用经阴道探头无法完整看到的大肿块。他们使用灰度和彩色多普勒超声图像来获取形态和血流变量来表征每个附件肿块。超声检查技术的细节以及所使用的超声术语和定义已在别处描述。最后，研究者根据超声检查结果的主观评估（“主观评估”）判断肿块可能是恶性还是良性。超声信息是前瞻性记录的，并在检查时锁定，因此手术后无法更改。研究结束后，我们集中使用IOTA逻辑回归模型1和2计算恶性肿瘤风险，确保这些逻辑回归模型在决策过程中没有任何作用。简单的规则也是如此。

参考标准

参考标准是组织学诊断，如果是恶性肿瘤，则为手术分期。根据外科医生的判断，手术是通过腹腔镜检查还是剖腹手术进行。切除的组织在当地中心进行组织学检查。病理学家不知道超声结果。我们根据国际妇产科联合会推荐的标准对肿瘤进行分类。

简单的规则

我们将基于简单超声的规则应用于肿瘤，这些规则已在之前的报告中详细描述。简而言之，我们使用 五种超声特征来预测恶性肿瘤（M 特征） ：不规则实体瘤（M1）、腹水（M2）、至少四个乳头状结构（M3）、最大直径至少100 毫米 (M4)，彩色多普勒检查 (M5) 的颜色含量非常高。我们使用五种超声特征来预测良性肿瘤（B 特征）：单房囊肿 (B1)、存在最大固体成分最大直径 <7 mm 的实性成分 (B2)、声影 (B3)、光滑多房性肿瘤肿瘤（B4），多普勒检查（B5）未检测到血流。如果存在一个或多个 M 特征而没有 B 特征，我们将肿块分类为恶性（规则 1）。如果在没有 M 特征的情况下存在一个或多个 B 特征，我们将肿块分类为良性（规则 2）。如果 M 特征和 B 特征都存在，或者如果没有任何特征存在，则简单规则是不确定的（规则 3）。

逻辑回归模型 1 和 2

逻辑回归模型 1 基于患者的年龄（以年为单位）、腹水的存在、乳头状突起内是否存在血流、固体成分的最大直径（以毫米为单位，但增加不超过 50 mm）、是否存在不规则的囊肿内壁、是否存在声影、卵巢癌的个人病史、当前的激素治疗、病变的最大直径（mm）、检查期间病变的压痛、是否存在纯粹的实体瘤，以及颜色评分（在其他研究中证实，以后分享给大家）。更简单的逻辑回归模型（模型 2）仅使用前六个变量。正如原始出版物中所建议的，逻辑回归模型 1 或 2 估计的恶性概率高于 0.10，则将肿块分类为恶性。

恶性肿瘤风险指数

我们通过超声检查结果、绝经状态和血清 CA 125 浓度来确定恶性肿瘤风险指数。 我们评估了超声评分 (U) 中提示癌症的五种超声特征：多房性、实性区域、双侧肿块、腹水和转移证据。当这些特征都不存在时，U 为 0；如果存在一个特征，则 U 为 1；如果存在两个或多个特征，则 U 为 3。我们对绝经前女性的评分 (M) 为 1，对绝经后女性的评分为 3。我们将恶性肿瘤风险指数定义为U×M×血清CA 125 浓度(U/mL)。正如原始出版物中所建议的，超过 200 的恶性风险指数将肿块归类为恶性。

统计分析

我们将简单规则与经验丰富的超声检查员的主观评估、恶性肿瘤风险指数以及简单规则产生结论性结果的情况下的逻辑回归模型 1 和 2 进行了比较。我们还评估了使用简单规则作为分类测试的策略的性能，

我们用敏感性和特异性来表达诊断性能。我们使用 Wilson 方法计算二项式比例的 95% 置信限。我们使用 McNemar 检验来确定配对二项式比例差异的统计显着性：敏感性和特异性。我们通过使用 χ2 检验确定了未配对比较的分类数据差异的统计显着性。我们使用 SAS 系统版本 9.2 进行统计分析。

结果

我们在 2005 年 11 月至 2007 年 10 月期间招募了 1970 名患者。其中，我们排除了 32 名患者 (1.6%)，原因如下：超声检查后 120 天内未手术切除肿块 (n=15)、怀孕时检查（n=12）、数据输入错误（n=4）和协议违规（n=1）。因此，我们纳入了 1938 名患者的数据。平均年龄为 46 岁（范围 11-94），38% (742) 的患者已绝经，41% (793) 未生育，11% (214) 正在接受激素治疗。在肿瘤中，542 个（28%）为恶性，包括 111 个（20%）交界性肿块、373 个（69%）原发性侵袭性肿块和 58 个（11%）转移性肿块。

总的来说，简单的规则对 1501 个肿瘤产生了结论性的结果（规则 1=恶性，规则 2=良性）。这相当于数据集中所有质量的 77% (1501)。简单规则得出结论性结果的肿块的恶性率为 25% (369/1501)，而其余肿块的恶性率为 40% (173/437)（P<0.001）。456 例中至少存在一种恶性肿瘤特征（M 特征），其中 389 例（85%）不存在 B 特征。 在根据简单规则预测为恶性的 389 个肿块中，根据组织学结果，87% (340) 为恶性。 在 1179 例中至少存在一种 B 特征，而在其中 1112 例（94%）中不存在 M 特征。在根据简单规则预测为良性的 1112 个肿块中，根据组织学结果，97% (1083) 为良性。

在通过简单规则得出结论性结果的肿瘤中，其敏感性为 92% (340/369)，特异性为 96% (1083/1132)。 在这些肿瘤中，主观评估的敏感性和特异性与简单规则相似：91%（336/369）（P=0.35）和96%（1083/1132）（P=1.0）。主观评估漏掉了 33 种癌症（假阴性），并给出了 49 种假阳性诊断。简单的规则漏掉了 29 种癌症，并给出了 49 种假阳性诊断。简单规则在“旧”和“新”中心的表现相似：旧中心的敏感性为 93% (179/192)，新中心的敏感性为 91% (161/177) (P=0.42)，并且特异性旧中心为 95% (487/513)，新中心为 96% (596/619)（P=0.27）。简单规则在绝经前和绝经后患者中的敏感性相似（91%（102/112） v 93%（238/257）；P=0.62），但绝经前患者的特异性更高（97%（829/857） ) v 92% (254/275)；P=0.004)。 与绝经后患者相比，简单的规则在绝经前患者中更容易得出结论性结果（81% (969/1196) vs 72% (532/742)；P<0.001）。

主观评估、逻辑回归模型1和2的诊断性能，以及简单规则产生不确定结果的肿瘤的恶性指数风险（规则3）。其中， 超声检查者主观评估的诊断性能优于逻辑回归模型1、逻辑回归模型2，绝经前和绝经后患者的恶性指数风险均优于逻辑回归模型1、逻辑回归模型2。 Logistic回归模型1和Logistic回归模型2特异性较低， 而恶性肿瘤风险指数敏感性较低。 Logistic 回归模型 1 和 2 的特异性显着低于主观评估（所有患者的比较分别为 47% 和 50% vs 80%，P<0.001；所有患者的比较分别为 64% 和 63% vs 85 %，P<0.001）。绝经前患者的两项比较；绝经后患者的两项比较分别为21% 和 30% vs 73%，P<0.001）。恶性肿瘤风险指数的敏感性显着低于主观评估（所有患者中为50% vs 89%，P<0.001；绝经前患者中为32% vs 84%，P<0.001；绝经前患者中为63% vs 92%，P绝经后患者<0.001）。

如果在所有肿瘤中使用简单规则，则敏感性为 63% (340/542)，特异性为 78% (1083/1396)。 如果使用简单规则作为分类测试，并对超声检查结果的主观评估用于那些简单规则产生不确定结果的肿块，则测试性能如下：灵敏度 91% (494/542 ）（简单规则为 63%（340/542），主观评估为 28%（154/542）），特异性为 93%（1294/1396）（简单规则为 78%（1083/1396），主观评估为 15%（211 /1396）通过主观评估）。这一表现与在所有肿瘤中使用主观评估的结果相似，其敏感性为 90% (490/542) (P=0.35)，特异性为 93% (1294/1396) (P=1.0)。

简单的规则对大多数良性肿瘤（81%，1132/1396）和大多数原发性侵袭性肿瘤（74%，275/373）产生了结论性结果，但仅对一半的交界性肿瘤（50%，56/111）（表 5⇓ ）。简单规则对于脓肿、纤维瘤和浆液*交性**界 I 期肿瘤的表现较差（可以结合影像学等检查进一步明确诊断）。

讨论

在这项研究中， 我们前瞻性地验证了 IOTA 简单超声规则区分良性和恶性附件肿块的能力。 这项研究的结果证实，当规则产生结论性结果时， 它们可以可靠地区分良性和恶性附件肿块。 他们这样做的效果与经验丰富的超声检查员进行主观评估的效果一样好。这些规则在制定规则的中心的时间验证和新中心的外部验证方面都效果良好。这证实了这些规则具有普遍适用性。使用简单规则作为分类测试和超声检查结果的主观评估的策略的测试性能被用作规则产生不确定结果的肿块的第二阶段测试（敏感性 91%，特异性 93%）类似于由经验丰富的检查者对所有肿瘤进行主观评估（敏感性 90%，特异性 93%）。由于很少有临床医生具备卵巢病理超声检查的特殊技能，因此需要一种可供所有超声检查人员有效使用的可靠测试。简单的规则有可能成为这样的测试。

长处和短处

这项研究的优势在于其前瞻性和多中心设计。由于数据是在不同国家收集的，患者具有不同的特征，因此简单的规则可能被证明适用并在其他人群中表现良好。另一个优势是使用详细的预定义方案对大量患者进行了研究，其中包括商定的术语、测量技术和定义。我们进行了时间验证和外部验证。由于新旧中心的结果几乎相同，因此我们可以证明将新旧中心的结果一起报告是合理的，以利用更大的研究人群并能够估计绩效指标，例如敏感性和特异性，具有更高的精度。

该研究的一个局限性是所有检查都是由经验丰富的超声检查员完成的。 需要由经验较少的审查员对简单规则进行验证。目的是使用对患者进行分类的规则，以便转诊给专门从事妇科超声检查的检查员。

与其他研究的比较

先前对附件肿块良性或恶性的术前表征的研究大多是小且单中心的。我们之前在多中心研究中开发并测试了简单的规则。然而，Altman 及其同事写道，内部验证和时间验证都没有检查模型的普遍性，为此使用从不同中心的适当患者群体收集的新数据是必要的。

简单规则的主要优点是简单。 超声变量很容易获得，并且与许多数学模型相比，这些规则更容易在临床实践中使用。通过使用简单的勾选框系统，无需计算机软件即可快速生成结果。此外， 与使用恶性肿瘤风险指数时相反，不需要用于血清CA 125的血液样本。 因此，简单的规则可 能是帮助经验不足的超声检查员区分良性和恶性肿瘤的理想工具。 简单规则的缺点是它们对大约 25% 的肿瘤产生不确定的结果，而数学模型对所有肿块产生有用的结果。 因此，在使用简单规则时，对于简单规则产生不确定结果的情况，建立适当的妇科超声专家转诊模式非常重要。 当简单的规则产生不确定的结果时，恶性肿瘤风险指数或两个 IOTA 逻辑回归模型 1 和 2 不足以区分良性和恶性肿瘤。 这些规则似乎对脓肿、纤维瘤和 I 期浆液*交性**界性肿瘤不太有效。 这些情况也很难通过超声检查结果的主观评估进行分类。未来的研究需要确定经验不足的超声检查员使用简单规则时的表现，以及使用简单规则是否会改善患者护理并降低成本。

结论

由于简单的规则提供了一种直接的方法来正确表征约 75% 的附件肿块，因此它们的使用应该使所有超声检查医师和普通妇科医生能够在大多数情况下可靠地区分良性和恶性附件肿块。如果规则产生不确定的结果， 我们建议将患者转介给经验丰富的超声检查员对超声检查结果进行主观评估，因为这可以提供最准确的诊断。 如果我们使用简单的规则作为分类测试，并由经验丰富的超声检查员进行主观评估作为那些简单规则产生不确定结果的肿块的第二阶段测试，我们将获得与在所有情况下使用主观评估时相同的诊断性能。 群众使用简单的规则就有可能改善对有附件肿块的妇女的管理。

Simple ultrasound rules to distinguish between benign and malignant adnexal masses before surgery: prospective validation by IOTA group - PubMed