当前位置: 首页 > news >正文

python爬虫获取手机评论数据 - f

以下是包含 JSON文件存储功能 的完整代码,已标注好你需要修改的3处核心位置(用 # 需修改 标注):

import requests
from bs4 import BeautifulSoup
import time
import json  # 新增:用于写入JSON文件# 1. 配置请求头(模拟浏览器,避免被识别为爬虫)
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36",  # 需修改:替换成你自己的User-Agent"Referer": "https://item.jd.com/"
}# 2. 定义抓取函数(单页评论)
def get_phone_comments(page, product_id):# 京东评论接口url = f"https://club.jd.com/comment/productPageComments.action?productId={product_id}&score=0&sortType=5&page={page}&pageSize=10"try:time.sleep(1.5)  # 延迟,反爬response = requests.get(url, headers=headers)response.raise_for_status()  # 捕获请求错误data = response.json()# 提取评论核心信息comments = []for comment in data["comments"]:comment_info = {"用户": comment["nickname"],"评分": comment["score"],"评论时间": comment["time"],"评论内容": comment["content"].strip()}comments.append(comment_info)return commentsexcept Exception as e:print(f"第 {page+1} 页抓取失败:{str(e)}")return []# 3. 主程序(多页抓取 + 写入JSON)
if __name__ == "__main__":# 核心配置:3处需修改的位置product_id = "100062815823"  # 需修改:替换成目标手机的商品IDtotal_pages = 5  # 需修改:调整要抓取的总页数(建议先1-2页测试)json_file_name = "手机评论数据.json"  # 可选修改:自定义JSON文件名称all_comments = []# 循环抓取多页for page in range(total_pages):print(f"正在抓取第 {page+1} 页...")page_comments = get_phone_comments(page, product_id)all_comments.extend(page_comments)# 打印抓取结果print(f"\n抓取完成!共获取 {len(all_comments)} 条手机评论")# 写入JSON文件with open(json_file_name, "w", encoding="utf-8") as f:json.dump(all_comments, f, ensure_ascii=False, indent=2)print(f"评论已保存到【{json_file_name}】(与代码文件同一目录)")

再次明确需你手动修改的3处(缺一不可)

  1. User-Agent:百度搜索“我的User-Agent”,复制当前浏览器的标识,替换代码中对应的值(避免被识别为爬虫)。
  2. product_id:打开京东目标手机商品页,从URL中提取数字ID(如 https://item.jd.com/123456789.html 中的 123456789),替换示例ID。
  3. total_pages:根据需求调整页数(如想抓3页就改成 3),初期建议先设为 1 测试是否能正常生成JSON文件。
http://icebutterfly214.com/news/88250/

相关文章:

  • 活在時光裏的父母
  • unity运行后笔记本风扇声音太大的解决办法
  • Jetson Secure Boot 完整实战指南:从 Fuse Key → Boot Chain → 验签代码路径的源码级解析
  • 2025年12月海关联盟GOST认证,PAC认证,工业安全认证公司推荐:合规服务测评与选择指南 - 品牌鉴赏师
  • 12月11日日记
  • PyMe是一款面向大众的可视化低代码Python开发工具
  • AI元人文构想:技术标准与人文规范的统一——拥抱数值表征vs审慎价值优化
  • Ubuntu系统火狐浏览器配置http代理
  • 2025年市面上排行前列的推拉窗厂家有哪些,侧压平移推拉窗/六轨断桥推拉窗/平移断桥提升窗/推拉窗源头厂家推荐排行榜 - 品牌推荐师
  • tmux使用教程
  • 2025年十大口碑小红书代运营公司深度解析,短视频运营公司/短视频代运营/抖音运营公司/抖音代运营/企业号代运营小红书代运营品牌推荐 - 品牌推荐师
  • 中国人工智能学会推荐国际学术会议和国际/国内期刊目录
  • 2025年机械手数控车床品牌排行揭晓,这些品牌领跑市场!英伟达液冷数控车/无人机配件数控/双主轴数控车床/4轴数控机床数控车床设计品牌 - 品牌推荐师
  • 10401_基于Springboot的植物园售票管理系统
  • LeeCode_4. 寻找两个正序数组的中位数
  • 记最近找的一款时间管理软件 - Higurashi
  • 持久化与内存管理策略——RDB/AOF、淘汰策略与容量规划的决策要点
  • 解码IPC-管道与信号 - 指南
  • 大夏龙雀DX-WF25(ESP32-C2-H2) mixly开发
  • MySQL基础语法复习笔记(含完整代码示例+新手实操指南) - 教程
  • FreeRTOS任务卡死在prvTaskExitError
  • 《程序员修炼之道:从小工到专家》笔记8
  • 2025年12月GEO服务商参考指南:聚焦豆包、DeepSeek,布局AI时代内容触达 - 品牌2025
  • 水刀切割机哪家好?2025热门切石机厂家权威排名汇总 - 栗子测评
  • 石材抛光机厂家哪家好?2025热门石材切割机厂家口碑推荐 - 栗子测评
  • 矿山机哪家好?2025靠谱矿山开采设备厂家排名推荐 - 栗子测评
  • 岩板切割机厂家推荐哪家?2025高性价比花岗岩切割机厂家排名 - 栗子测评
  • Meta闭源模型vocado、Google Gemini TTS情绪语音、微软智能体新高度
  • 全网热议!2025专业HIFI耳机口碑推荐,甄选5款优质耳机 - 讯息观点
  • QStyledItemDelegate