当前位置: 首页 > news >正文

如何使用 Jackknife 估计确保模型稳定性

原文:towardsdatascience.com/how-to-ensure-stability-of-a-model-using-jacknife-estimation-23d0dde2cd1f

在许多情况下,确保模型的鲁棒性对于良好的数据一致性和泛化未见数据至关重要。检测有影响力的个别数据观测值可能是避免不准确结果的另一个关键原因。

此过程通常涉及评估模型输出的可变性和识别潜在的偏差,尤其是在处理小数据集时。解决这些挑战的一个强大统计工具是Jackknife 估计方法

在本文中,我们将深入探讨 Jackknife 估计的概念,通过一个实际例子进行讲解,并逐步探索其工作原理。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/35fc6fde0da287156f57ece34d8700fd.png

图片由Ryoji Iwata在Unsplash提供

什么是 Jackknife 估计?

与 Bootstrapping 类似,Jackknife 估计是一种重采样统计技术,用于估计估计量的偏差和方差。它通过每次从数据集中省略一个观测值,在剩余数据上计算估计量,然后使用得到的估计值来计算总体估计量。为了说明该技术的应用,我们将在后面解释一个关于客户流失预测的常见实际例子。

Jackknife 估计的数学原理

设原样本为 _s={x_1, …, xn},我们想要估计参数theta,它可以是任何统计量,如样本均值、客户流失率,甚至是单个预测概率。这个估计量将被称为theta的原估计量。

首先生成n个样本,每个样本移除第i个元素,并使用剩余的n-1个观测值计算统计量:

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/072882d92f47c3c5365315fb84842630.png

基于 Jackknife 子样本计算的统计量 – 图片由作者提供

然后,通过计算 Jackknife 样本的平均值来汇总估计:

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/893d553f47625d94665ab2ff234a4fd7.png

Jackknife 平均 – 图片由作者提供

估计参数的 Jackknife 偏差如下:

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/a27ef4b4d185fe565a90fa3ad1dfd634.png

Jackknife 偏差 – 图片由作者提供

并且方差估计如下:

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/71fa9c653163e5a559f476027bafdfda.png

Jackknife 方差 – 图片由作者提供

最后,可以计算出原始参数的 Jackknife 估计量:

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/0b111edb6eb91da652814d5ef8d405d4.png

Jackknife 偏差校正估计量 – 作者图像

这个新估计量的偏差为 0。在实践中,这并不完全等于 0,因为它实际上是泰勒级数的一阶近似,但渐近地将始终小于任何给定估计量的偏差[1]。这意味着虽然 Jackknife 可能在小型数据集中不能完全消除偏差,但它与原始有偏估计量相比仍然显著减少了偏差。

与 Bootstrap 的区别

Bootstrapping是一种通过重采样来估计估计量分布的知名方法。这是一个有用的方法,因为它避免了关于原始数据内在分布的其他常见统计方法的任何假设。

两者都是基于重采样的非参数技术,用于估计数据集的偏差和方差。然而,Jackknife 是 Bootstrap 的前身,由 Quenouille 在 1949 年描述,并在 20 世纪 50 年代由 Tukey 进一步完善。

然而,Bootstrap 方法的一个主要特征——有放回的抽样——并没有被 Jackknife 所遵循,后者基于无放回重采样

两种方法之间另一个有趣的联系是,Jackknife 是 Bootstrap 方法的线性近似。参见参考文献[1]以获取更多详细信息。

实际示例:流失预测

想象你构建了一个基于客户数据(如订阅时长和其他与你的产品相关的特征)的预测模型来检测客户流失。流失率通常与整个人群相比非常小,因此在预测中很容易出现假阳性或假阴性。为了避免这种情况,你希望评估模型的稳定性并估计每个数据点的流失预测敏感性

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/c5cda9ad5d956e07242c36cea70abf68.png

特征 1 和 2 与流失概率的散点图(数据模拟) – 作者图像

上图显示了两个人工特征与流失概率之间的关系。尽管数据是模拟的,但目的是为了说明在现实数据集中检测流失的复杂性。有时,没有特定的模式,分布的内在变异性使得构建一个健壮的流失检测模型变得困难。我们稍后会回顾标记的数据点。

为了确保鲁棒性,在用整个样本训练预测模型后,逐个移除数据集中的客户。然后在剩余的n-1个客户上重新训练模型,并使用重新训练的模型记录所有客户的流失预测。这些被称为Jackknife 样本

现在,使用 Jackknife 样本估计模型的偏差方差,并了解为什么某些预测与预期不符。

检测低估或高估的预测

Jackknife 偏差估计了在完整数据集上计算的预测与 Jackknife 估计平均值之间的差异。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/7fe335a2f90e4b96440edc2eb69f0f4d.png

Jackknife Bias for Predictions by Predicted Churn – 图像由作者提供

观察 77 是一个具有高度负面偏见的预测流失客户。这表明模型对该特定观察值系统地高估了。在这种情况下,真实的流失概率是 0.65,而估计值为 0.70。另一方面,点 56 的原始流失概率为 0.31,被低估至 0.08。

即使最终的准确度指标可能不会高度受到个别预测的影响,例如在示例中,这种方法帮助我们识别有偏见的预测,在某些情况下可能导致错误地针对客户并做出错误的企业决策。

其原因可能是模型可能过于简单,无法捕捉数据中的关系,或者模型可能缺乏足够的数据来正确表示某些模式。

测量模型的稳定性

模型的稳定性可以通过计算 Jackknife 迭代中的预测方差来衡量。一个稳定的模型将在所有客户的预测中显示出低方差,而在相反的情况下,高方差将表明对数据的小变化敏感。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/7b93fd281f75a99253b239dbc7db1a7a.png

Jackknife Variance for Predictions by Predicted Churn – 图像由作者提供

与剩余观察值相比,客户 15、77、41 和 91 的预测在 Jackknife 样本中显著波动。因此,它们可能是预测不准确,并且它们增加了模型的复杂性。

有影响力的数据点的存在可能导致模型不稳定,对噪声反应过度。作为解决方案,您可以通过移除有影响力的观察值来简化模型。

结论

当您想要评估调整模型的变异性偏差样本量小时,Jackknife 是一种推荐的技术。对于大样本量,Bootstrap 将是一个更好的选择。

这些技术帮助您确定模型是否依赖于某些观察值,并确保模型稳定可靠,从而提高针对个人的信心。

参考文献

  • [1] McIntosh, Avery I. The Jackknife Estimation Method (2016)arXiv: 方法学。

感谢阅读!✨

请随意评论!我们都在学习,所以我很乐意讨论任何与技术或数据相关的话题!

让我们在LinkedIn或X/Twitter上建立联系。

http://icebutterfly214.com/news/144520/

相关文章:

  • 再见,本地环境!我用这套云原生开发工作流,把上线时间从1天缩短到3分钟。
  • video-analyzer:5分钟学会用AI自动解析视频内容的终极指南
  • python日常办公用品打印机耗材商城直售推荐购物系统的设计与实现_02i27_pycharm django vue flask
  • 专注RFID读写器,万全智能的20年深耕之路 - 品致汇
  • 2025年12月四川成都市政管道、波纹管、骨架管、给水管、电力管厂家竞争格局深度分析报告 - 2025年品牌推荐榜
  • 老人机器人有哪些品牌?2025年养老机器人品牌全景解析 - 资讯焦点
  • 酒店送餐机器人品牌全景解析:从技术到应用的完整指南 - 资讯焦点
  • 河南中医师承选哪个机构靠谱?一个执业药师的系统对比与总结 - 资讯焦点
  • 专业的AI仓库管理哪家强?云拿AI仓库让它自己“思考” - 资讯焦点
  • Transfomer读书报告
  • AI训练图片、视频、数据集素材供应商推荐:卓特视觉数据训练专家 - 品牌2026
  • 用MapV-Three渲染倾斜摄影,就这么简单
  • 酒店服务机器人OEM厂家全景解析:从擎朗到猎户星空的产业选择指南 - 资讯焦点
  • 2025年AI搜索优化服务市场观察:技术演进与企业适配路径 - 品牌测评鉴赏家
  • 解析 `std::deque` 的‘地图-缓冲区’内存结构:为什么它是实现高性能栈(Stack)的首选底座?
  • 前端知识css样式补充——给必填项加上*标识
  • 别再瞎用Deepseek写论文!9款免费AI神器+真实文献,AIGC率仅6%
  • 2025 年全国景观灯厂家十大最新推荐,品质之选照亮城市与庭院 - 深度智识库
  • 教育博主实测:2025年高性价比AI智能体开发服务推荐指南 - 品牌测评鉴赏家
  • 2025年市面上专业的风幕机厂家联系电话,表冷换热器/高大空间循环空气制热机组/贯流式风幕机,风幕机工厂联系电话 - 品牌推荐师
  • 测试覆盖率99%≠高质量:我们到底该追求什么样的覆盖率?
  • 分布式数据库水平扩展与高可用架构在互联网大规模业务系统优化实践经验分享总结 - 教程
  • 主成分分析 PCA(二)-- 高维 PCA
  • MySQL 审计级别配置指南
  • 2025年武汉比较好的环氧玻璃钢厂家推荐排行榜,无溶剂环氧涂料/光固化保护套/环氧玻璃钢/石墨烯涂料/环氧酚醛环氧玻璃钢门店怎么找 - 品牌推荐师
  • iOS 操作系统深度解析:从核心架构到行业应用的完整指南
  • 2025年南京留学中介综合服务力TOP榜单及行业趋势洞察 - 留学品牌推荐官
  • 2025专科生必看!10个AI论文平台测评,毕业论文轻松过
  • 抓住国产AI基建爆发前夜:质普Open-AutoGLM入门到精通仅剩这1份文档
  • Open-AutoGLM PC性能实测:在低配PC上也能流畅运行的AI编码黑科技