Hi,欢迎来到”一点统计”学习大本营。点击上方蓝字关注,更多统计、科研干货等你来挖掘!
今日分享台湾60年代歌手姚苏蓉的经典情歌《情人的眼泪》。
预测模型的评价,我们在前述推文中已反复推荐过,即要进行多维评价,例如区分度、校准度、DCA曲线等。今天,主要和大家分享关于校准度分析相关知识。校准度用于对预测模型的概率进行评价,反映了实际概率与预测概率之间的接近程度。在往期推文中已有简要概述:。
那么,校准度评价到底有多少种常用的评估方式?概率校准不好怎么办?有没有推荐阅读的文献?今天统统为大家解答!
预测模型校准度评价
方式1:Brier score
Brier score衡量了预测概率与实际概率之间的差异,取值范围在0-1之间,数值越小表示校准度越好。例如在下面的文献中,作者采用Brier得分对所构建模型进行评价,我们发现模型在区分D和A组别的时候,其Brier score最低,校准结果最理想。
文献来源:Shaowu Lin, Yafei Wu, Lingxiao He & Ya Fang(2022)Prediction of depressive symptoms onset and long-term trajectories in home-based older adults using machine learning techniques,Aging & Mental Health
方式2:校准曲线(intercept、slope)
该方式通过绘制校准曲线,并且计算校准曲线的截距和斜率,以此衡量校准情况。具体而言,在校准曲线中,如果曲线越接近对角线,说明实际概率和预测概率越接近,校准越理想。注意:在有些文献中校准截距用intercept表示,而有些用calibration-in-the-large表示。斜率一般用slope表示(截距反映了预测概率平均水平和实际概率平均水平之间的差距)。
参考文献:Steyerberg E W , Vergouwe Y . Towards better clinical prediction models: Seven steps for development and an ABCD for validation[J]. European Heart Journal, 2014, 35(29).
方式3:校准图(折线图、散点图、直方图)
显而易见,这种方式一般以图形方式呈现校准结果,涵盖了直方图、折线图和散点图等。在直方图中将预测概率进行等分分组(一般10组),比较预测和实际概率在不同组间的差异,差异如果越小说明校准越好。在折线图和散点图中,越接近对角线越好,与上述校准曲线类似判读方式。反之几种常见的预测模型,偏离对角线则说明低估或高估了实际风险。
参考文献:[1] Zhang Y , Fang X , Guan S , et al. Validation of 10-Year Stroke Prediction Scores in a Community-Based Cohort of Chinese Older Adults[J]. Frontiers in Neurology, 2020, 11.
参考文献:Mkk A , Kh B , Jhc C , et al. A model to predict risk of stroke in middle-aged adults with type 2 diabetes generated from a nationwide population-based cohort study in Korea[J]. Diabetes Research and Clinical Practice, 163.
参考文献:Orfanoudaki A , Chesley E , Cadisch C , et al. Machine learning provides evidence that stroke risk is not linear: The non-linear Framingham stroke risk score[J]. PLOS ONE, 2020, 15.
参考文献:Zheng, X., Fang, F., Nong, W. et al. Development and validation of a model to estimate the risk of acute ischemic stroke in geriatric patients with primary hypertension. BMC Geriatr 21, 458 (2021).
娜娜项目网每日更新创业和副业项目
网址:nanaxm.cn 点击前往娜娜项目网
站 长 微 信: nanadh666
文献:IR König, Ziegler A , Bluhmki E , et al. Predicting long-term outcome after acute ischemic stroke: a simple index works in patients from controlled clinical trials.[J]. Stroke, 2008, 39(6):1821-1826.
参考文献:Scrutinio D , Lanzillo B , Guida P , et al. Development and Validation of a Predictive Model for Functional Outcome After Stroke Rehabilitation: The Maugeri Model[J]. Stroke, 2017:STROKEAHA.117.018058.
方式4:Hosmer-Lemeshow检验
这种方法实际上就是拟合优度检验,用于判断实际概率分布和预测概率分布是否一致几种常见的预测模型,通常以卡方值和P值形式呈现。P0.05,说明两组概率分布没有差异,校准结果理想。
参考文献:Xing X , Yang X , Liu F , et al. Predicting 10-Year and Lifetime Stroke Risk in Chinese Population: The China-PAR Project[J]. Stroke, 2019, 50(9).
方式5:Expected Calibration Error(ECE)
ECE中文译为期望校准误差,也可以用于评价预测模型的校准度。相对于上述其他方法,ECE在研究文献中的应用相对较少。其原理和计算公式如下(sklearn官方文档),且一般将校准曲线和ECE指标结合使用。
下面这篇文献将校准曲线和ECE结合用于模型校准能力评价:
参考文献:Erkin Ötleş, Jon Seymour, Haozhu Wang, Brian T Denton, Dynamic prediction of work status for workers with occupational injuries: assessing the value of longitudinal observations, Journal of the American Medical Informatics Association, 2022
模型预测概率校准方法
在以往推文中,我们提到过预测模型可能存在一种情况:区分度很好,但校准度不理想。此种情况下就需要对预测模型概率进行重新校准,以实现其具有高区分能力的同时,也有不错的校准能力。
需要注意的是:模型校准度分析和模型预测概率校准是两个完全不同的东西。前者指的是采用前述5种方式对模型的校准能力进行客观评价。而后者则是在前者分析基础上,发现模型校准度已经不是很理想的情况下,采用一些技术对概率进行重新校正,以使其重新获得好的校准结果。那么,都有哪些常用的概率校准技术呢?
在Python的sklearn中,提供了两种常用的校准技术,分别是Platt和Isotonic方法,这两种方法均为回归技术,能够实现对预测概率的重新计算,最后实现对校准情况的调整。关于这两种校准技术的详细介绍请查阅如下链接:
#calibrating-a-classifier
娜娜项目网每日更新创业和副业项目
网址:nanaxm.cn 点击前往娜娜项目网
站 长 微 信: nanadh666