当前位置: 首页 > news >正文

比较好的建站程序枣庄网站seo

比较好的建站程序,枣庄网站seo,h5转wordpress,镇江特色import requestsurl https://movie.douban.com/top250 response requests.get(url) # 查看结果 print(response)在requests使用一文中我们有讲到,当状态码不是200时表示爬虫不可用,也就是说我们获取不到网页源代码。但是我们还是可以挣扎一下&#xff…
import requestsurl = 'https://movie.douban.com/top250'
response = requests.get(url)
# 查看结果
print(response)

在这里插入图片描述

  在requests使用一文中我们有讲到,当状态码不是200时表示爬虫不可用,也就是说我们获取不到网页源代码。但是我们还是可以挣扎一下,不是说不可用就放弃了。爬虫时经常会遇到有些网站有反爬机制,为了能够请求成功该如何操作?那当然是把我们伪装成浏览器了!

  那么如何把自己伪装成浏览器代替我们发送请求呢?pycharm有个字典Headers,我们需要在浏览器中找到键User-Agent对应的值

User-Agent:对应的值包含了浏览器、操作系统的各项信息。如果没有User-Agent,就相当于赤裸裸的去访问对方服务器,只要对方有反爬虫机制,就能发现你是爬虫。

在浏览器中打开想要爬取的网站,右键 --> 检查然后如下图操作:

在这里插入图片描述

  也有的网站刷新后出现的项目很少,甚至点开没有User-Agent对应的值,但是有一个项目里面一定有 : 项目名跟网站地址很相近的项目中。例如在本例中名为www.zhihu.com的项目里一定含有。

  在以贝壳租房为例,打开网页后,右键 --> 检查,在项目名为zufang中一定含有User-Agent对应的值

在这里插入图片描述

获取键user-agent对应的值后,我们把键与值写入字典Headers中

import requests# 1. 浏览器伪装
url = 'https://movie.douban.com/top250'
headers = {'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36'
}
# 获取响应结果
response = requests.get(url, headers=headers)
# 查看状态码
print(response.status_code)  # 200
# 获取网页源代码
# print(response.text)
http://www.hyszgw.com/news/19758.html

相关文章:

  • h5网站价格百度关键词排名优化工具
  • 汽车网站首页模板代码百度竞价登录入口
  • 做美食下载什么网站seo资源是什么意思
  • 手机网站的网址是什么原因百度灰色关键词代发
  • 卖花网站模板广安网站seo
  • 珠海网站建设案例成都关键词优化服务
  • 哈尔滨住建委seo知识培训
  • 广州网站公司建设网站seo网站推广企业
  • asp flash网站模板国产十大erp软件
  • 郴州旅游攻略开鲁网站seo不用下载
  • 大连网站设计哪里有做产品宣传
  • 政府网站建设管理工作经验公司域名注册步骤
  • php的网站怎么做网站优化策略
  • 做网站找那些公司外贸推广平台
  • jquery验证网站地址佛山网络推广平台
  • 一个人看的浏览器茶叶seo网站推广与优化方案
  • 去年做哪些网站能致富吸引人的软文标题
  • 易企秀h5制作官网百度seo公司哪家好一点
  • 国外 网站 欣赏最近发生的新闻事件
  • 英文独立站建设公司哪家好免费建网站软件哪个好
  • wordpress去掉仪表盘南昌seo营销
  • 如何做卖衣服的网站现在的网络推广怎么做
  • linux 装wordpress厦门seo优化推广
  • 天津做网站.都找津坤科技郑州seo技术外包
  • 网站建设初期 该如何推广如何进行网络营销推广
  • 做网站怎样收费的百度搜索引擎工作原理
  • 08 iis安装网站球队排名榜实时排名
  • 寿县网站建设保定百度seo排名
  • 修改网站dns二级不死域名购买
  • 织梦cms是免费的吗百度seo培训班