当前位置: 首页 > news >正文

巴州区建设局网站北京建设银行

巴州区建设局网站,北京建设银行,环保部网站官网建设项目限批办法,安全的合肥网站建设贝壳找房标题爬取需要注意的是#xff0c;在页面中间有一个小广告 而他就在ul的li下面#xff0c;当我们进行title所以输出时#xff0c;会报错。 所以在进行页面解析之前必须把广告叉掉#xff0c;不然也把广告那一部分的li给爬取下来了 所以#xff0c;我们#xff0… 贝壳找房标题爬取需要注意的是在页面中间有一个小广告 而他就在ul的li下面当我们进行title所以输出时会报错。 所以在进行页面解析之前必须把广告叉掉不然也把广告那一部分的li给爬取下来了 所以我们定位到上面箭头那里进行 x掉也就是利用click事件进行处理 然后第二个就是当进行下一页时url会更换 所以当我们要第23456……页时必须刷新新的url 如果换页时url没变的情况下则只需元素定位到下一页的按钮进行click事件处理即可。 要注意的就是以上那么多代码如下 from selenium import webdriver from lxml import etree from selenium.webdriver.common.by import By from time import sleep from selenium.webdriver import ChromeOptions choChromeOptions() cho.add_experimental_option(excludeSwitches,[enable-automation]) #浏览器驱动 browebdriver.Chrome(optionscho) sleep(1) all_page[] for i in range(5):bro.get(fhttps://bj.ke.com/ershoufang/pg{i1}/)# 睡个两秒防止页面没有加载完成sleep(2)#把广告去掉因为广告是ul下的一个li。bro.find_element(By.CLASS_NAME,daoliu_close).click()#点击后进行解析并且放进列表里面all_page.append(bro.page_source)print(f已经把第{i1}页HTML内容放入列表中)print(--------------------------------------------------------------------------------------------------------------)s1 #页面列表循环遍历进行解析。 for page in all_page:treeetree.HTML(page)#睡个两秒防止页面没有加载完成sleep(2)li_listtree.xpath(/html/body/div[1]/div[4]/div[1]/div[4]/ul/li)#再睡个两秒防止页面没有加载完成sleep(2)print(f正在爬取第{s}页内容****************************************************)sleep(1)#打印测试有没有空元素print(len(li_list))for dl in li_list:titledl.xpath(./a/title)[0]#title只有一个所以【0】就行print(title)print(f第{s}爬取完成*********************************************************)ss1sleep(1) sleep(2) bro.quit()
http://icebutterfly214.com/news/44022/

相关文章:

  • 《重生之我成为世界顶级黑客》第八章:未来野望
  • python多进程 —— multiprocessing.Manager —— 跨主机共享内存的读写
  • AT_agc063_e Child to Parent 题解
  • 2025年中小学生 AI 学习机选购指南:松鼠 AI 双线模式成优选
  • YOLOv3 深度解析:网络架构、核心改进与目标检测实践 - 指南
  • 20232424 2025-2026-1 《网络与系统攻防技术》实验五实验报告
  • 《重生之我成为世界顶级黑客》第五章:失败,失败,还是失败
  • Linux - sudo -i
  • 利用单片机的TIM模块播放春日影
  • python: 用pyppeteer以无头方式抓取页面
  • 详细介绍:用Flux.1-Krea[dev]打造动漫风格插画的提示词灵感与创作技巧
  • 002 vue3-admin项目的目录及文件说明之src目录及其子目录、子文件
  • 小程序获取OCR识别结果,示例代码
  • 大模型基础补全计划(七)---Transformer(多头注意力、自注意力、位置编码)及实例与测试
  • dfad
  • 随机化数论算法总结
  • 【AI智能体开发】什么是LLM?如何在本地搭建属于自己的Ai智能体? - 详解
  • 数据结构——二十四、图(王道408) - 实践
  • vcpkg交叉编译
  • 实用指南:Vue 实例生命周期
  • 这段时间的NOIP模拟赛
  • 2025年可靠的防火门厂家推荐及采购指南
  • 23.Python爬取百合网
  • 2025年热门的大型热压机厂家最新用户好评榜
  • 12.Python自动获取招聘信息工具
  • 详细介绍:在 Vue 3.5 中优雅地集成 wangEditor,并定制“AI 工具”下拉菜单(总结/润色/翻译)
  • code 2025 - ukyo-
  • 2025年热门的电厂清淤机器人厂家最新热销排行
  • SciTech-Mathematics-Analysis:数学分析-数列: 常用数列 及其 求和公式
  • 2025年齐齐哈尔工伤纠纷律师事务所服务口碑推荐榜