精准医疗的核心在于利用人工智能(AI)工具从大数据集中发现特征并预测个体对特定治疗的反应。医疗保健专业人员希望通过这些工具为每位患者量身定制治疗方案。然而,一项发表在《科学》杂志上的研究指出,尽管AI模型在训练样本中能够高度准确地预测治疗结果,但在处理未见过的患者数据时,模型的性能会显著下降,准确性仅略高于随机猜测。

为了确保精准医疗的有效性,预测模型需要在不同情况下保持稳定准确性,并尽可能减少偏差或随机结果的出现。耶鲁大学精神病学家亚当·切克鲁德(Adam Chekroud)指出,这是一个尚未被充分认识到的问题,研究基本上证明了算法需要在多个样本上进行测试。

在评估算法准确性的过程中,研究团队使用了五项抗精神病药物临床试验的数据,涉及1513名被诊断为精神分裂症的志愿者。他们训练算法预测患者经过四周抗精神病药物治疗后的症状改善程度,并在开发算法的试验中测试了算法的准确性。然而,当将模型应用于未经训练的数据集时,其预测效果几乎随机,即使使用不同的预测算法重复实验,结果也相似。

这项研究强调了在大型数据集上对临床预测模型进行严格测试的重要性,以确保它们的可靠性。切克鲁德建议,我们应该像研发药物一样思考模型开发,严格遵守开发和测试原则,不能仅凭一次测试就认为模型是可靠的。这表明在精准医疗领域,算法的开发和验证需要更加严谨和细致的方法,以确保其在实际应用中的有效性和可靠性。