当前位置：首页 > news >正文

大数据分析基础及应用案例：第五周学习报告——逻辑回归、决策树

news 2025/10/27 15:47:28

这周一下子学了两个超实用的模型 —— 逻辑回归和决策树，它们俩都是做 “分类任务” 的高手！比如判断 “用户会不会下单”“邮件是不是垃圾邮件”，用这两个模型就能搞定。跟上周的线性回归比，分类模型更贴近生活里的选择场景，学起来特别有代入感，这就跟大家分享我的学习收获～
一、先搞懂：逻辑回归
一开始听 “逻辑回归”，我还以为跟上周的线性回归差不多，后来才发现：线性回归是 “预测具体数值”（比如预测销量多少），逻辑回归是 “判断属于哪一类”（比如判断用户会不会买），但它俩底层逻辑有相通的地方，学起来没那么难。

逻辑回归
比如我们想判断 “一条短信是不是诈骗短信”，可以找几个影响因素：“有没有陌生链接”“是不是境外号码”“含不含‘转账’‘中奖’关键词”。逻辑回归会把这些因素整合起来，算出这条短信是 “诈骗” 的概率 —— 概率大于 50%，就归为 “诈骗类”；小于 50%，就归为 “正常类”，就这么简单！
它的核心是一个叫 “sigmoid 函数” 的东西，能把线性回归算出来的 “任意数值”，压缩到 0~1 之间，这个结果就是 “属于某一类的概率”。比如算出来 0.8，就说明有 80% 概率是诈骗短信，直接分类就好。
实操里要注意的 “小细节”
类别要明确：逻辑回归最适合 “二分类”（比如 “是 / 否”“好 / 坏”），如果是 “多分类”（比如 “优 / 良 / 差”），得用特殊处理方法，这点跟线性回归不一样。
别让 “异常值” 捣乱：比如分析 “用户是否下单” 时，有个用户 “浏览时长” 填了 1000 分钟（明显是误填），如果不删掉，会让模型判断出错，所以数据清洗时一定要检查异常值。
看 “准确率” 够不够：模型跑完后，要算 “准确率”—— 比如 100 条短信，模型对了 85 条，准确率就是 85%，越高说明模型越靠谱。
二、再学透：决策树
如果说逻辑回归是 “靠概率判断”，那决策树就是 “靠规则判断”，特别像我们平时做选择的过程！比如周末要不要出门：“先看天气 —— 下雨吗？下雨就不出；没下雨再看有没有约会 —— 有约会就出，没约会就宅家”，决策树就是把这种 “层层判断” 写成了可视化的 “树状图”，一眼就能看懂。
决策树的 “树结构” 超直观
拿 “判断西瓜甜不甜” 举个例子，决策树会这么层层拆分：
第一层（根节点）：先看 “瓜皮颜色”—— 青绿色还是深绿色？
第二层（中间节点）：如果是青绿色，再看 “瓜纹清晰度”—— 清晰还是模糊？
第三层（叶子节点）：如果瓜纹清晰，就判断 “甜”；如果模糊，就判断 “不甜”。
每一层判断的 “依据”（比如瓜皮颜色、瓜纹），模型会自动从数据里找 —— 哪个因素能最快把 “甜瓜” 和 “不甜瓜” 分开，就先用来当第一层判断，特别智能。
避坑指南：别让树 “长太疯”
决策树有个小毛病：如果不管它，会一直拆分到 “每个样本都单独一类”，这就像 “把每个细节都当重点”，反而会判断不准（比如把 “瓜上有个小斑点” 也当判断依据，其实根本不影响甜度）。这时候就要 “剪枝”：
提前停止：比如规定 “树最多长 3 层”，到层数就不再拆分；
剪去细枝：把那些 “对分类帮助很小” 的分支删掉，让树更简洁，判断更准。
二、实践案例：用两个模型 “判断用户会不会下单”
这周的作业是分析电商数据，预测 “用户浏览商品后会不会下单”，正好用逻辑回归和决策树做对比，结果特别有意思！
数据准备：挑对 “影响因素”
原始数据有 “用户浏览时长”“加购次数”“有没有领优惠券”“是不是新用户” 这几个字段，共 500 条用户数据。第一步先筛选有用的因素：
去掉 “用户 ID”（就是个编号，没用）；
把 “是不是新用户” 转成数字（1 = 新用户，0 = 老用户），方便模型计算。
两个模型 “PK” 一下
逻辑回归：靠概率稳赢把 “浏览时长”“加购次数” 等因素放进去，模型算出每个用户 “下单概率”。最后准确率是 82%——100 个用户，82 个判断对了。还能看到 “加购次数” 影响最大：加购 1 次以上的用户，下单概率比没加购的高 50%，这个结论特别实用，以后商家可以重点推 “加购” 活动。
决策树：靠规则直观赢决策树跑出来后，直接生成了一个树状图，第一层判断 “有没有领优惠券”—— 领了优惠券的用户，再看 “加购次数”；没领的，直接判断 “大概率不下单”。准确率是 79%，比逻辑回归略低，但胜在 “规则清晰”，老板看树状图就能懂 “怎么提升下单率”，不用看复杂公式。
这次踩的 “坑”，大家别踩
一开始我把 “浏览时长” 的单位搞混了（有的是 “分钟”，有的是 “秒”），没统一单位就放进模型，结果逻辑回归准确率只有 60%。后来把所有时长都转成 “分钟”，准确率一下子就上去了 —— 原来数据格式不统一，对模型影响这么大！
三、总结：两个模型各有千秋，按需选就好
这周学下来，我觉得逻辑回归和决策树就像 “分类界的两个工具”：
想 “精准算概率”“看因素影响大小”（比如算用户下单概率、分析哪个因素最关键），选逻辑回归；
想 “快速出规则”“让非技术的人也看懂”（比如给老板看怎么判断垃圾邮件、怎么提升转化率），选决策树。
而且这两个模型都是数据分析的 “基础款”，后面学更复杂的模型（比如随机森林），都要用到它们的思路。第五周算是跨进了 “分类任务” 的大门，感觉离 “用数据解决实际问题” 又近了一步，下周继续加油！

查看全文

http://icebutterfly214.com/news/133/

题解：P4434 [COCI 2017/2018 #2] Usmjeri

小程序-跳转到公众号

如何解决一堆向量的问题？10、Self-attention - -一叶知秋

洞悉过往，一目了然：浅述视频融合平台EasyCVR如何实现海量视频录像的智能检索与高效回看

2025年国内外五款AI编程工具深入对比与推荐排行

CSPS 前后的话

2025 年 10 月云仓 ERP，云仓 saas 系统，云仓代发系统公司最新推荐，技术实力与市场口碑深度解析

iOS混淆实战用多工具组合把IPA加固做成可复用的工程能力（iOS混淆 IPA加固无源码混淆

cyclonessd ROS2 lidar topic 数据丢帧系统配置

2025 年 10 月 WMS 系统，WMS 软件，wms 仓储管理系统公司最新推荐，聚焦资质、案例、售后的优质机构深度解读

Go语言测试全攻略：从单元测试到模糊测试

2025 年 10 月进销存 erp，供应链 erp，零售 ERP 公司最新推荐，聚焦资质、案例、售后的五家机构深度解读！

相关文章：