手把手教你爬取天堂网1920*1080大图片(批量下载)——理论篇

      最后更新:2020-05-11 12:00:12 手机定位技术交流文章

      /1序言/

      平时,我们必须一张张下载图片。你认为一个一个地下载它们很麻烦吗?有更简单的方法吗?答案是肯定的,在这里我们选择天堂。例如下载天堂的图片。com批处理。

      /2项目准备/

      首先,我们的第一步是安装一个pycham软件。请参考本文:蟒蛇环境建设-安利蟒蛇小白蟒及蟒蛇安装详细教程。

      天堂网的网站:

      https://www.ivsky.com/bizhi/1920x1080/

      我们需要下载多少个库?打开pycharm,依次单击文件,然后单击设置,如下图所示。

      打开此界面后,点击您的项目名称(project:(您的项目名称)),然后在项目解释器下,点击加号,然后下载我们需要的库,如下图所示。

      这个项目需要的库是请求、lxml和fake _ useragent,如下图所示。Fake _ useragent通常不可用,需要通过以下命令安装:

      pip安装fake _ useragent

      /3项目实施/

      1.导入所需的库(请求、lxml、fake _ useragent)。

      2.我用封装的方法来实现每个部分的功能。首先,编写一个框架:构造一个类天堂网站,然后定义一个__init__方法继承(self),然后定义一个主方法(main)。最后,逐步实现了主要方法。

      3.我们带来了Heaven.com的网站来构建请求头。让我们来讨论一下如何获得这个用户代理。打开heaven.com网站后,按键盘上的F12,进入开发者模式,然后点击网络,如下图所示。

      4.然后单击一个名称,并在标题中复制用户代理。

      5.我们点击下一页的地址来观察网站的变化,如下所示:

      http://www . ivsky . com/bizi/1920 x 1080/index _ 2 . html

      显然,这个网站的页面数量一直在变化。我们可以使用格式{}来代替更改值,如下所示:

      https://www.ivsky.com/bizhi/1920x1080/index_{}.html

      6.然后我们使用for循环遍历这些网站,代码如下:

      定义主要(自我):我在范围(1,2): #页面随机设置网址=自我。网址。格式打印

      7.我们定义了这个get_home()方法来请求这个网站。

      9.我们需要分析获得的数据,然后定义一个xiap方法,并获得我们要求的网站。接下来是项目的关键。

      10.到目前为止,我们已经提前做好了反爬行者措施的准备。下一步是分析网页结构,提取网页图片地址数据,并批量下载分析后的图片地址,实现下一篇文章的详细解释。

      4摘要

      本文的主要内容是对图片网站做一个基本的介绍。基于Python的爬虫库请求、lxml和fake _ useragent,请求头被预先部署以模拟浏览器。我们已经提前做好了反爬行者措施的准备。

      下一篇文章将带您通过网页结构的分析和网页图片地址数据的提取,并批量下载分析后的图片地址。请期待~ ~

      本文由 在线网速测试 整理编辑,转载请注明出处,原文链接:https://www.wangsu123.cn/news/6326.html

          热门文章

          文章分类