加载中 ...
首页 > 建站 > 经验 > 正文

用案例让你一文搞懂python网络爬虫

2019-09-04 12:16:15 来源:

中即可看到,form 为 post 方式。我们只需要 form 表单中的 name 属性即可。

如下图:

image.png

4、爬虫的异常处理:

????爬虫在运行的过程中,很多时候都会遇到这样或那样的异常。如果没有异常处理,爬虫遇到异常时就会直接崩溃停止运行,下次再次运行时,又会重头开始,所以,要开发一个具有顽强生命力的爬虫,必须要进行异常处理。

????异常处理主要是为了增强代码的稳定性。

????两者都是异常处理的类,HTTPError是URLError的子类,HTTPError有异常状态码与异常原因,URLError没有异常状态码,所以,在处理的时候,不能使用URLError直接替代HTTPError。如果要替代,必须要判断是否有状态码属性。

接下来我们通过实战讲解:

image.png

具体的实战为:

image.png

5、爬虫的伪装技术:

? ? 浏览器伪装技术原理:

????我们可以试试爬取csdn博客,我们发现会返回403,因为对方服务器会对爬虫进行屏蔽。此时我们需要伪装成浏览器才能爬取。

浏览器伪装我们一般通过报头进行,接下来我们通过实战分析一下。

image.png

6、新闻竞技宝全站流水爬取:

需求:将新浪新闻首页(http://news.sina.com.cn/)所有新闻都爬到本地。

思路:先爬首页,通过正则获取所有新闻链接,然后依次爬各新闻,并存储到本地。

image.png

7、爬虫防屏蔽手段之代理服务器:

image.png

如何做代理:

image.png

8、图片爬虫实战: 在浏览器爬取时,有时不同的浏览器会有不同的查询结果,解析出不同的源码。

首先在“审查元素”中确定元素的重点字段是哪些,然后再在“源码”中查找对应的图片位置,确定图片 url 的规则。

#!/usr/bin/env python # _*_ UTF-8 _*_

image.png

在源码解决不了的情况下,需要进行抓包。作业:千图网的爬取(可以通过调试找到报错原因):

image.png

9、抓包分析实战(一)?

获取淘宝的评论信息、腾讯的娱乐新闻信息等需要抓包分析。如何抓取 https 的数据包以及腾讯视频的评论。

TextView:显示返回的信息;

通过 fiddler 找到含有评论的网址,复制出对应的网址,观察网址的规则。

设置完 fiddler 之后,点击要爬取的页面,回到 fiddler 中,确定有 js 内容的链接:

对应的网址为:(点此)

然后确定其中的 itemId 等字段的内容,其中的部分内容未必有用处,可以直接删除,比如 上面 url的 ua 字段。

如果要抓取 https 的数据:

Fiddler 默认只能抓取 HTTP 协议的网页,不能抓取 HTTPS 协议的网页,而我们很多时候,都需要抓 HTTPS 协议的网页,比如抓淘宝数据等。今天,韦玮老师会为大家讲解如何使用 Fiddler 抓取 HTTPS 协议的网页。

打开 Fiddler,点击“Tools--FiddlerOptions--HTTPS”,把下方的全部勾上,如下图所示:

然后,点击 Action,选择将CA 证书导入到桌面,即第二项,导出后,点击上图的 ok 保存配置。

然后在桌面上就有了导出的证书,如下所示:

随后,我们可以在浏览器中导入该证书。我们打开火狐浏览器,打开“选项--高级--证书- -导入”,选择桌面上的证书,导入即可。随后,Fiddler 就可以抓 HTTPS 协议的网页 了。如下图所示。

抓取腾讯视频的评论:

下图为带评论的 js 文件(从 fiddler 中获取):

其中有多个字段,commentid 等,在点击“加载更多”时,commentID 会发生变化,在第一个url 的源码中会找到下一个评论 url 的地址,找到 last 字段,即为下一个 url 的commentid, 以此来构造下一个 url。

image.png

10、微信爬虫实战:

如何解决微信的限制?

image.png

image.png

image.png

11、多线程爬取实战 糗事百科的代码:微信爬虫的爬取依然是使用浏览器,即在搜狗浏览器上使用微信网页版,然后编辑这个页面的 url,以获取内容。

image.png

将此程序改为多进程为:

image.png

image.png

??技术总是在不停的进步的,现在的这些爬虫技术一定不能适应所有的环境,如有各位意犹未尽,请关注我的公众号:livandata

image.png

“广域创业网”的新闻页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题,请与

我们联系删除或处理,客服邮箱,稿件内容仅为传递更多信息之目的,不代表本网观点,亦不代表本竞技宝全站流水赞同

其观点或证实其内容的真实性。