手把手教你爬取天堂网1920*1080大图片（批量下载）——理论篇

最后更新：2020-05-11 12:00:12 手机定位技术交流文章

/1序言/

平时，我们必须一张张下载图片。你认为一个一个地下载它们很麻烦吗？有更简单的方法吗？答案是肯定的，在这里我们选择天堂。例如下载天堂的图片。com批处理。

/2项目准备/

首先，我们的第一步是安装一个pycham软件。请参考本文:蟒蛇环境建设-安利蟒蛇小白蟒及蟒蛇安装详细教程。

天堂网的网站:

https://www.ivsky.com/bizhi/1920x1080/

我们需要下载多少个库？打开pycharm，依次单击文件，然后单击设置，如下图所示。

打开此界面后，点击您的项目名称(project:(您的项目名称))，然后在项目解释器下，点击加号，然后下载我们需要的库，如下图所示。

这个项目需要的库是请求、lxml和fake _ useragent，如下图所示。Fake _ useragent通常不可用，需要通过以下命令安装:

pip安装fake _ useragent

/3项目实施/

1.导入所需的库(请求、lxml、fake _ useragent)。

2.我用封装的方法来实现每个部分的功能。首先，编写一个框架:构造一个类天堂网站，然后定义一个__init__方法继承(self)，然后定义一个主方法(main)。最后，逐步实现了主要方法。

3.我们带来了Heaven.com的网站来构建请求头。让我们来讨论一下如何获得这个用户代理。打开heaven.com网站后，按键盘上的F12，进入开发者模式，然后点击网络，如下图所示。

4.然后单击一个名称，并在标题中复制用户代理。

5.我们点击下一页的地址来观察网站的变化，如下所示:

http://www . ivsky . com/bizi/1920 x 1080/index _ 2 . html

显然，这个网站的页面数量一直在变化。我们可以使用格式{}来代替更改值，如下所示:

https://www.ivsky.com/bizhi/1920x1080/index_{}.html

6.然后我们使用for循环遍历这些网站，代码如下:

定义主要(自我):我在范围(1，2): #页面随机设置网址=自我。网址。格式打印

7.我们定义了这个get_home()方法来请求这个网站。

9.我们需要分析获得的数据，然后定义一个xiap方法，并获得我们要求的网站。接下来是项目的关键。

10.到目前为止，我们已经提前做好了反爬行者措施的准备。下一步是分析网页结构，提取网页图片地址数据，并批量下载分析后的图片地址，实现下一篇文章的详细解释。

4摘要

本文的主要内容是对图片网站做一个基本的介绍。基于Python的爬虫库请求、lxml和fake _ useragent，请求头被预先部署以模拟浏览器。我们已经提前做好了反爬行者措施的准备。

下一篇文章将带您通过网页结构的分析和网页图片地址数据的提取，并批量下载分析后的图片地址。请期待~ ~