当前位置: 首页 > news >正文

做网站顺序阿里云安装wordpress数据库错误

做网站顺序,阿里云安装wordpress数据库错误,wordpress本地访问满,邢台seo关键词引流文章目录 专栏导读背景结果预览1、爬取页面分析2、通过返回数据发现适合利用lxmlxpath3、继续分析【小说榜、电影榜、电视剧榜、汽车榜、游戏榜】4、完整代码总结 专栏导读 🔥🔥本文已收录于《Python基础篇爬虫》 🉑🉑本专栏专门…

文章目录

  • 专栏导读
  • 背景
  • 结果预览
  • 1、爬取页面分析
  • 2、通过返回数据发现适合利用lxml+xpath
  • 3、继续分析【小说榜、电影榜、电视剧榜、汽车榜、游戏榜】
  • 4、完整代码
  • 总结

专栏导读

🔥🔥本文已收录于《Python基础篇爬虫》

🉑🉑本专栏专门针对于有爬虫基础准备的一套基础教学,轻松掌握Python爬虫,欢迎各位同学订阅,专栏订阅地址:点我直达

🤞🤞此外如果您已工作,如需利用Python解决办公中常见的问题,欢迎订阅《Python办公自动化》专栏,订阅地址:点我直达

🔺🔺此外《Python30天从入门到熟练》专栏已上线,欢迎大家订阅,订阅地址:点我直达

背景

  • 我想利用爬虫获取【百度热搜页面】的全部热搜、包括

  • 1、热搜榜

  • 2、小说榜

  • 3、电影榜

  • 4、电视剧榜

  • 5、汽车榜

  • 6、游戏榜

结果预览

在这里插入图片描述

在这里插入图片描述

1、爬取页面分析

爬取URL:https://top.baidu.com/board?

爬取方法:GET

返回数据:整个页面(TXT)

  • 代码

# -*- coding: UTF-8 -*-
'''
@Project :项目名称
@File    :程序.py
@IDE     :PyCharm
@Author  :一晌小贪欢
@Date    :2024/05/27 11:27
'''import json
import openpyxl
import requests
from lxml import etreeurl = 'https://top.baidu.com/board?'
cookies = {'Cookie': '填入自己的Cookie'
}headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36',}params = {'platform': 'pc','tab': 'homepage','sa': 'pc_index_homepage_all',
}res_data = requests.get(url=url, params=params, headers=headers, cookies=cookies)
print(res_data.text)
  • 请求结果

在这里插入图片描述

2、通过返回数据发现适合利用lxml+xpath

  • 我们发现返回的数据是整个网页,其中每一种热搜均在其页面中

  • 热搜榜、小说榜、电影榜、电视剧榜、汽车榜、游戏榜、存在如下div中

在这里插入图片描述

  • 获取该【div】(利用lxml+xpath)

  • 通过分析得:

  • //div[@id="sanRoot"]//div[@class="list_1EDla"]//a//div[@class="c-single-text-ellipsis"]
  • 通过分析发现xpath没问题,但是获的值重复了,所以利用

  • range(0,len(hot_search),2)只要获取一个就行了

在这里插入图片描述

3、继续分析【小说榜、电影榜、电视剧榜、汽车榜、游戏榜】

  • 我们发现这几个排行榜,居然使用一个xpath就可以

  • 通过分析得:

  • //div[@id="sanRoot"]//div[@class="list_1s-Px"]//a[@class="title_ZsyAw"]
  • 【热搜指数】通过分析得:

  • //div[@id="sanRoot"]//div[@class="list_1s-Px"]//div[@class="exponent_QjyjZ"]//span
  • 【热搜分类】通过分析得:

  • //div[@id="sanRoot"]//div[@class="list_1s-Px"]//div[@class="desc_2YkQx"]
  • 这三个长度都是【50】

  • 所以写进列表,进行以10个元素拆分,然后分别写进Excel

4、完整代码

# -*- coding: UTF-8 -*-
'''
@Project :百度热搜爬虫
@File    :程序.py
@IDE     :PyCharm
@Author  :一晌小贪欢
@Date    :2024/05/27 11:27
'''import json
import openpyxl
import requests
from lxml import etreewb = openpyxl.Workbook()
ws = wb.active
# 修改sheet名
ws.title = '热搜榜'
ws.append(['热搜榜'])
ws2 = wb.create_sheet('小说榜')
ws2.append(['小说榜'])
ws3 = wb.create_sheet('电影榜')
ws3.append(['电影榜'])
ws4 = wb.create_sheet('电视剧榜')
ws4.append(['电视剧榜'])
ws5 = wb.create_sheet('汽车榜')
ws5.append(['汽车榜'])
ws6 = wb.create_sheet('游戏榜')
ws6.append(['游戏榜'])url = 'https://top.baidu.com/board?'
cookies = {'填入自己的Cookie'
}headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36',}params = {'platform': 'pc','tab': 'homepage','sa': 'pc_index_homepage_all',
}res_data = requests.get(url=url, params=params, headers=headers, cookies=cookies)
tree = etree.HTML(res_data.text)'''
热搜榜
'''hot_search = tree.xpath('//div[@id="sanRoot"]//div[@class="list_1EDla"]//a//div[@class="c-single-text-ellipsis"]')
print(len(hot_search))for i in range(0,len(hot_search),2):print(hot_search[i].text)ws.append([hot_search[i].text])
'''
小说榜、电影榜、电视剧榜、汽车榜、游戏榜
'''
hot_search2 = tree.xpath('//div[@id="sanRoot"]//div[@class="list_1s-Px"]//a[@class="title_ZsyAw"]')
# print(len(hot_search))
# 热搜指数
hot_search3 = tree.xpath('//div[@id="sanRoot"]//div[@class="list_1s-Px"]//div[@class="exponent_QjyjZ"]//span')
# 分类
type_ = tree.xpath('//div[@id="sanRoot"]//div[@class="list_1s-Px"]//div[@class="desc_2YkQx"]')
count = 0a_list = []for i in range(len(hot_search2)):# print(hot_search2[i].text+' '+hot_search3[i].text+' '+type_[i].text)a_list.append(hot_search2[i].text+' '+hot_search3[i].text+' '+type_[i].text)# 将a_list 以10个元素拆分成小列表
a_list = [a_list[i:i+10] for i in range(0, len(a_list), 10)]
count = 0
for i in a_list:count+=1if count == 1:for j in i:ws2.append([j])elif count == 2:for j in i:ws3.append([j])elif count == 3:for j in i:ws4.append([j])elif count == 4:for j in i:ws5.append([j])elif count == 5:for j in i:ws6.append([j])wb.save("./整体热搜榜.xlsx")

总结

  • 希望对初学者有帮助

  • 致力于办公自动化的小小程序员一枚

  • 希望能得到大家的【一个免费关注】!感谢

  • 求个 🤞 关注 🤞

  • 此外还有办公自动化专栏,欢迎大家订阅:Python办公自动化专栏

  • 求个 ❤️ 喜欢 ❤️

  • 此外还有爬虫专栏,欢迎大家订阅:Python爬虫基础专栏

  • 求个 👍 收藏 👍

  • 此外还有Python基础专栏,欢迎大家订阅:Python基础学习专栏

http://www.hyszgw.com/news/35015.html

相关文章:

  • 如何查询网站点击率电脑端网站一般做多宽最好
  • 深圳响应式网站公司怎样建立个人网络平台
  • 用flash做的网站欣赏陕西住房和城乡建设网站
  • 烟台制作网站的公司哪家好推广网最新版本下载
  • 学院网站建设情况总结wordpress主题框架
  • 西宁网站开发萍乡网站建设哪家公司好
  • 接单类型网站建设费用怎样做网站的当前位置栏
  • 景德镇市建设局网站做网站付款方式
  • 做网站可以干嘛二次元wordpress博客
  • 网站开发技术公司网页加速器 安卓
  • 做网站一般用什么 语言网络营销推广的八大核心能力
  • 网站的建设周期与阶段惠州网站推广排名
  • 网站建设案例教程视频浦口区网站建设技术指导
  • 做网站asp百度网站优化 件
  • jsp网站空间网站开发东营推广营销公司
  • 申请备案网站空间国企500强公司有哪些
  • 量体定制铜陵seo
  • 海口网站建设中心网页游戏排行榜第一
  • 政务网站信息化建设情况今天重大新闻乌克兰
  • 北京大龙建设集团有限公司网站wordpress 美食
  • 网站建设导向wordpress评论框背景图片
  • 北京市保障性住房建设投资中心官方网站网站推广seo是什么
  • 网站开发技术服务费合同开网店一年的费用
  • 网站管理主要包括哪些内容wordpress怎么编辑导航菜单
  • 网站建设需要的设备和软件淄博百姓网
  • 广东移动手机营业厅网站wordpress淘宝联盟转链
  • 建一个交易网站需要多少钱施工企业汛期应急预案
  • 网站建设职位要求永嘉网站开发公司
  • 网站ip地址 a记录做代码和网站
  • 免费网页设计成品网站seo软件系统