SEER数据库这样挖掘还可以发4分+SCI

今天给大家分享的这篇文献于去年2月份发表在Neurosurgery(IF=4.85)上,研究方向为机器学习肿瘤生存预测。这篇文献分析数据来源于SEER数据库,结构完整,内容丰富,对于机器学习预测模型的分析可谓面面俱到,也为开展这方面的研究提供了一个很好的框架。笔者认为这是一篇值得一学的好文章,特此分享与大家共同学习,如有不足之处请多多批评指正。

 

An Online Calculator for the Prediction of Survival inGlioblastoma Patients Using Classical Statistics and Machine Learning(基于经典统计学方法和机器学习的胶质母细胞瘤患者生存期在线预测计算器)


SEER数据库这样挖掘还可以发4分+SCI


研究背景

多形性胶质母细胞瘤(GBM)是最常见的原发恶性脑肿瘤,每年约有12000例新发病例,确诊后中位生存期仅为一年(美国)。虽然群体水平上的存活率统计是明确的,不过由于疾病的异质性和不同层级间存活率的显著差异,预测个体患者存活率仍然具有挑战性。准确的生存预测对于指导临床和个人决策至关重要。近年来,大量基于个体水平的肿瘤生存预测算法涌现而来,这对研究个体水平GBM患者的临床护理具有很好的指导意义

方法流程

SEER数据库这样挖掘还可以发4分+SCI


结果解读

一.对象选择
本研究中作者从美国国家癌症中心SEER数据库选取了2005-2015年间接受手术并经组织病理学确诊为GBM( ICD-O-3编码为9440,9441,9442)的患者,同时排除了术后直接死亡的患者(术后生存期≤30天),最终符合纳入排除标准的患者共20821例;纳入变量包括年龄(age),肿瘤大小(tumor size)两个连续变量;分类变量包括性别(sex),种族(race),种族划分(ethnicity), 婚姻状态(marital status),保险状态(insurance status),肿瘤偏侧(tumor laterality),肿瘤位置(tumor location), 肿瘤漫延(tumor extension), 手术类型(surgery type), 放疗(radiotherapy), 化疗(chemotherapy),共11个分类变量

二.基线特征

数据缺失情况如下,insurance status (16.7%缺失)、tumor size (14.3%)、tumor laterality,(12.0%)、tumor location (6.6%)、marital status (3.8%)、tumor extension (1.6%)、surgery type (1.3%)和race (0.2%)。删失数据包括3745例(18.0%)。总中位生存期为13个月(95%CL,12-13)。整个数据集按照8:2的比例划分成训练集(16656例)和测试集(4165例),基线特征如下图。

SEER数据库这样挖掘还可以发4分+SCI

三.变量选择

作者使用了COX风险比例模型加速失效模型(AFT)对13个自变量进行了推断分析,分析协变量和存活率之间的独立关联。同时还模拟了年龄、性别、手术类型、放疗和化疗之间的相互作用。由于COX模型大部分自变量不满足风险比例假设(Schoenfeld残差),AFT检验结果均符合统计学假设(log-logistic分布),所以作者最终使用AFT模型来进行变量选择,得出13个变量均为生存率的独立影响因子。多因素AFT模型结果作者以森林图的形式展示如下。COX模型和AFT的统计学假设检验结果可见附录材料SDC2, SDC4。

SEER数据库这样挖掘还可以发4分+SCI


AFT模型是一种参数模型,不同于半参数模型COX回归的地方在于,它提供了加速因子(γ),表示变量相较于参照对象的相对存活时间。例如,γ=1.5表示预期生存期比参照对象延长50%。

我们从森林图(上图)中可以看到年龄更大,男性,无保险或者保险状态为医疗补助(uninsured/medicaid),跨中线肿瘤(midline tumors),肿瘤原发于顶叶(parietal lobe),脑干(brainstem), 多叶(multiple lobes), 肿瘤漫延到脑室(ventricles),越过中线(across the midline)以及肿瘤尺寸更大为独立危险因素加速因子γ<1,P<0.05),亚裔, 西班牙裔(Hispanicethnicity),已婚, 完全切除(gross-total resection)以及放化疗为独立保护因素加速因子γ>1,P<0.05)。因此,本研究最终纳入的13个变量均作为后续预测算法的输入变量

四.模型开发

作者使用随机森林算法对缺失数据进行多重插补。进而在训练集上建立了15种机器学习算法和统计学算法,包括AFT、袋装决策树(bagged decision)、增强型决策树(boosted decisiontrees)、增强型生存决策树(boosted decision trees survival)、CPHR、极端增强型决策树(extreme boosted decision trees)、k近邻(k-nearest neighbors)、广义线性模型(generalized linear models)、套索和弹性网络正则化广义线性模型(GLMnet, lasso and elastic-net regularized generalized linear models)、多层感知器(multilayer perceptron)、朴素贝叶斯(naive Bayes)、随机森林(random forests)、随机生存森林(random forestsurvival,)、递归划分(recursive partitioning)和支持向量机(support vector machines)。在训练集中采用五折交叉验证进行模型训练,预处理优化和超参数调节,并使用测试集进行独立验证

本研究设置了多个预测结果以增强与其他二分类研究(存活/死亡)或连续生存结果研究(生存时间)之间的可比性,(1)连续:输出从确诊到死亡的总生存期为几个月;(2)二分类:输出1年生存概率;(3)删失数据(时间事件模型):输出受试者水平的Kaplan-Meier生存曲线

五.性能评估

作者对于预测模型的区分度,校准度,解释能力,普适性以及运算效率等方面都进行了性能评估。区分度使用一致性指数(C-index)进行评估,对于时间事件模型还采用了基于不同生存时间点的综合一致性指数(Integrated C-index),结果如下。

SEER数据库这样挖掘还可以发4分+SCI

可以看到,在总体生存和1年生存状态预测中,所有模型的测试集C-index分别在0.66- 0.70不等,0.67-0.70不等。在时间事件模型中,基于不同生存时间点的综合C-index在0.68到0.70不等,其中AFT模型表现出最高的判别性能。与所有连续模型和二元模型相比,AFT模型在预测总体生存和1年生存状态方面分别显示出相似或更好的区分性
 

SEER数据库这样挖掘还可以发4分+SCI

模型校准度评价采用校准曲线(calibration plot)。1年生存状态的校准曲线在所有模型中差异很大,正文内容仅展示了AFT模型和CPHR模型的校准曲线对比,如上图所示,AFT模型显示出更好的校正,而CPHR模型系统性地低估了实际生存率在0.5到0.75范围内的患者生存情况。所有模型的1年生存率校准曲线提供在附录文件SDC5中。

除了预测性能外,模型的可解释性、预测适用性和运算效率也是临床预测实践中的重大挑战。由于缺乏可解释性,机器学习模型通常被称为“黑匣子”,被认为是与经典统计方法相比的一个弱点。推理和预测是数据科学的两大应用领域,作者在研究中用以评估模型的可解释性。预测适用性指的是模型可以处理的结果事件类型(二元、连续或时间事件),以及拟合模型的生成输出(分别是类别概率、数值估计或受试者水平生存曲线)。运算效率是根据模型大小、加载时间和运算时间来衡量的。各模型在可解释性、预测适用性、运算效率方面的对比如下图所示。

SEER数据库这样挖掘还可以发4分+SCI

我们可以看到,只有AFT、CPHR、广义线性模型(GLM)以及正则化广义线性模型(GLMnet) 具有推理效用。同时,AFT、增强生存决策树(boosting decision tree survival)、CPHR、随机生存森林(random forest survival)和递归划分算法也是仅有的能够对时间-事件数据进行建模,并输出受试者级别生存曲线的模型。模型加载时间在0.2s到45min不等。在单个CPU处理器上,模型进行100次迭代的预测时间在1.9秒到4分钟不等。

六.  在线预测工具

从区分度,校准度的评估结果看来,各模型之间性能表现没有太大区别,AFT模型性能略胜于其他模型,不过在可解释性、预测适用性和运算效率方面,AFT模型相较于其他模型,性能表现突出明显。因此作者基于AFT模型开发了一个在线交互生存期预测工具。(https://cnocbwh.shinyapps.io/gbmsurvivalpredictor/)同时,作者还提供了基于一名假想患者不同治疗策略上的生存预测情况。

SEER数据库这样挖掘还可以发4分+SCI

小结

作者在本研究中比较了15个经典统计学算法和机器学习算法对GBM患者生存的预测能力,最终发现加速失效模型(AFT, acceleratedfailure time model)在区分度,校准度,解释能力,普适性以及运算效率方面都表现出更好的性能,并建立了基于AFT算法的GBM生存在线交互式预测计算器。

本研究为癌症患者生存预测工具的开发提供了一个框架,作者说明了AFT算法能够提供COX模型在违背风险比例假设时的替代方案,同时也说明了未来的研究应集中于开发更有临床意义和可解释性,并可以在临床护理中安全可靠地实施的生存预测工具。

这就需要进行更多模态数据的组装,包括临床经验、神经心理测试、影像学数据和基因组学信息;同时需要建立更多的算法,以应对输入特征的数量和性质的增加,并提供进一步的单中心或多中心外部验证,增加在实际临床应用中的普适性。

最近公众号改版,

以防失联,加个星标吧!

SEER数据库这样挖掘还可以发4分+SCI

往期推荐

SEER数据库这样挖掘还可以发4分+SCI

SEER数据库这样挖掘还可以发4分+SCI

SEER数据库这样挖掘还可以发4分+SCI

SEER数据库这样挖掘还可以发4分+SCI

SEER数据库这样挖掘还可以发4分+SCI

SEER数据库这样挖掘还可以发4分+SCI

SEER数据库这样挖掘还可以发4分+SCI

SEER数据库这样挖掘还可以发4分+SCI-医学科研网

多点好看,少点脱发

生物医学科研方法

博士还没毕业,导师先跳槽了!到底要不要跟着走,这位小姐姐写了篇文章发了Science!

2021-1-18 7:14:43

生物医学科研方法

利用Graphpad跟着Nature学习绘制百分数点图

2021-1-18 7:15:22