020-29815005
预约专线时间:09:00-23:59

什么是python爬虫的基本流程?

新闻来源:本站 日期:2021-06-22
学习python,我们要从最基础的爬虫开始,甚至在python培训课程中,学习python金钱,我们要从最基础的爬虫开始,下面我们一起来看看!  用户如何获得网络数据:  方法1:浏览器提交请求--->下载网页代码--->解析…
  学习python,我们要从最基础的爬虫开始,甚至在python培训课程中,学习python金钱,我们要从最基础的爬虫开始,下面我们一起来看看!

  用户如何获得网络数据:

  方法1:浏览器提交请求--->下载网页代码--->解析成页面

  方法2:模拟浏览器发送请求(获取网页代码)->提取有用的数据->存放于数据库或文件中

  爬行者所做的只是方法2。

  一、提出请求。

  通过使用details库向目标站点发起请求,也就是发送Reque。

  请求包含:请求标题、请求主体等等。

  模块缺陷:无法执行JS和CSS代码。


Python


  二、获取回应内容。

  如果服务器能够正确响应,那么将获得响应。

  Response包含:html、json、图片、视频等等。

  三、内容解析。

  html数据的解析:正则表达式(RE模块)、xpath(主要是)、beautifulsoup、css。

  分析json数据:json模块

  分析二进制数据:写入文件时使用wb格式。

  四、保存数据。

  Mongdb、Redis或文件形式的数据库(MySQL)。

  上面是爬虫的基本流程,我们知道爬虫的基本流程之后,就可以逐步的从底层学习了。