当前位置: 首页 > news >正文

公主岭网站建设网页页面布局

公主岭网站建设,网页页面布局,百度快照在哪里找,高中作文网站最近上海好像有举行个什么维吾尔族的秘密时装秀#xff0c;很好看的样子#xff0c;不过我还没时间看。但是微博上已经吵翻了天#xff0c;原因是好吧#xff0c;这不是我们关心的#xff0c;我的心里只有学习我爱学习 Python 爬虫 本次爬取的是这条微博这条微博 微博的移…最近上海好像有举行个什么维吾尔族的秘密时装秀很好看的样子不过我还没时间看。但是微博上已经吵翻了天原因是好吧这不是我们关心的我的心里只有学习我爱学习 Python 爬虫 本次爬取的是这条微博这条微博 微博的移动版网页还是比较好爬的首先打开这条 微博的页面 然后按下 F12打开开发者工具选择 network 面板 然后鼠标滚轮向下滑可以看到 network 面板产生新的请求我们选择按 Type 排序找到 xhr 类型寻找评论接口 可以看到出现了两个奇怪的请求它们的尾部都跟着 page * 我们选择其中一个双击来到了一个新的页面评论的 json 数据 这就是评论的 json 格式数据这样我们就找到了微博评论的 API 接口。 接下来就是 python 爬虫代码有了 API 接口爬虫也就不难写了 scrap_ximengyao_weibo.py import requests import json import re # source_wei_wo_url https://m.weibo.cn/status/4176281144304232 def get_comment(head_url, count): i 1 fp open(奚梦瑶.txt, a, encodingutf8) while i count: try: url head_url str(i) resp requests.get(url) resp.encoding resp.apparent_encoding comment_json json.loads(resp.text) comments_list comment_json[data] for commment_item in comments_list: username commment_item[user][screen_name] comment commment_item[text] label_filter re.compile(r?\w[^]*, re.S) comment re.sub(label_filter, , comment) fp.write(comment) print(i) except Exception as e: print(str(i) 遇到异常) continue i 1 fp.close() if __name__ __main__: head_url https://m.weibo.cn/api/comments/show?id4176281144304232page get_comment(head_url, 40000) 本来每请求一次接口就会返回来 10 条评论目前她微博有 36 万评论所以我把 while 循环设为了请求 40000 次但是要全部爬完花的时间太长了我可没那闲工夫一直等着它跑完。所以爬到 1 万多次的时候我就手动停止爬虫了 爬虫运行停止之后我们在爬虫的同名目录下得到了一个 “奚梦瑶.txt”大约包含了10万条网友评论。有的小伙伴就要开始问了既然我们拿到了评论文本现在是不是就可以进行分词了Too Young! 由于评论里包含了太多的 emoji 表情直接分词的话会导致解码错误所以我们还要再对评论进行一次过滤过滤掉非中文字符准确来说是过滤掉非 GBK 编码字符 评论过滤 过滤的原理很简单就是用 python 把“奚梦瑶.txt”这个文件读取进来换个编码然后再写入一个新文件“ximengyao.txt” filter_ximengyao_weibo.py fp open(奚梦瑶.txt, encodingutf-8, errorsignore) new_fp open(ximengyao.txt, w, encodinggbk, errorsignore) try: all_text fp.read() new_fp.write(all_text) finally: fp.close() new_fp.close() 分词 分词的解决方案有很多本来我是想直接用 图悦 在线分词生成词云的但是文本太多了图悦已经奔溃后来我选择了 结巴分词 来手动分词 首先安装结巴分词 pip install jieba 我们的目的是选取评论中词频最高的 100 个词组以降序将他们排列然后做成词云。我在简书找到了一位网友写的博客正好满足我们的需求 用jieba分词提取关键词做漂亮的词云 其实接下来你就可以去看他的博客了 这里贴一下我的分词代码毕竟我是一个有始有终的人 jieba_ximengyao_weibo.py import jieba.analyse path ximengyao.txt file_in open(path, r) content file_in.read() try: # jieba.analyse.set_stop_words(你的停用词表路径) tags jieba.analyse.extract_tags(content, topK100, withWeightTrue) for v, n in tags: #权重是小数为了凑整乘了一万 print(v \t str(int(n * 10000))) finally: file_in.close() 有一点需要注意这个 词云制作 网站是不支持中文字体的所以你需要从网上下载一款中文字体然后添加进去。 生成词云图词频最高的词居然是“回复”我这暴脾气 不过这也是情理之中原创的评论有限许多都是吵架盖楼的。这里把我们把“回复”这个词删掉用剩下的词重新制作一个词云删掉“回复” 最终结果词云图 郑重声明最终结果不代表本人观点 再见
http://icebutterfly214.com/news/16892/

相关文章:

  • 2025年11月烘干房源头厂家Top10推荐:四川蜀冷烘干房领跑行业
  • 筑牢安全基座——国产制品库如何重塑企业软件供应链防线?
  • C++23的out_ptr和inout_ptr
  • 2025年口碑好的陕西白水苹果精选优质产区
  • 【URP】Unity[后处理]景深DepthOfField
  • 2025年11月市场认证公司榜单:五强资质对比与案例解析
  • 2025年比较好的龟纹石鱼池假山制作厂家实力及用户口碑排行榜
  • 2025年11月折叠滤芯厂家对比榜:五强资质与性能全解析
  • 2025年靠谱的KNX智能家居系统解决方案优质厂家推荐榜单
  • 2025年11月护肝保健品品牌推荐:权威榜单对比蓝帽子认证热门产品
  • 2025年评价高的深水探照灯钣金加工TOP实力厂家推荐榜
  • 2025年热门的气力均化设备用户好评厂家排行
  • 2025年口碑好的代加工皮革门品牌厂家排行榜
  • 2025年比较好的轻奢开放式衣帽间收纳最受欢迎品牌榜
  • P7371 [COCI 2018/2019 #4] Kisik 题解
  • 11月4号
  • AVrecon僵尸网络感染超7万台Linux路由器,潜伏两年终被发现
  • 2025 年 11 月新风系统厂家推荐排行榜,电竞网咖酒店棋牌室KTV洗浴饭店商场办公室别墅大宅学校诊所中医馆会所美容院,商用家用极寒地区全热交换系统公司推荐!
  • C# DataGridView 大数据量性能优化 - 尼古拉
  • go语言实现腾讯股票获取示例(并发)
  • 2025 年 11 月高压清洗机厂家推荐排行榜,超高压清洗机组,超高压水清洗设备,超高压清洗装置,工业超高压清洗设备公司精选
  • 2025 年 11 月高温轴承厂家权威推荐榜:耐高温轴承,真空高温轴承,窑炉高温轴承,BOPP链夹高温轴承,高温调心球轴承,高温关节轴承,高温滚针轴承,高温角接触轴承,高温圆柱滚子轴承公司推荐
  • 2025 年 11 月电磁阀线圈厂家推荐排行榜,电磁线圈,电磁铁线圈,小型电磁线圈,微型线圈,汽车电磁线圈,车用感应线圈,防爆线圈,防爆电磁线圈,直流电磁线圈,电磁线圈定制公司推荐
  • 9.22 未完成的情感投射
  • [B] AGC VP 记录
  • [Agent] ACE(Agentic Context Engineering)源码阅读笔记---(1)基础模块
  • Java数组——数组的使用
  • 设计模式--外观模式:简化繁琐环境的统一接口
  • 文生视频时代,RustFS如何成为AI资产库的最佳底座?
  • NOIP2025 游记