学习python,我们要从最基础的爬虫开始,甚至在python培训课程中,学习python金钱,我们要从最基础的爬虫开始,下面我们一起来看看!  用户如何获得网络数据:  方法1:浏览器提交请求--->下载网页代码--->解析…
学习python,我们要从最基础的爬虫开始,甚至在python培训课程中,学习python金钱,我们要从最基础的爬虫开始,下面我们一起来看看!
用户如何获得网络数据:
方法1:浏览器提交请求--->下载网页代码--->解析成页面
方法2:模拟浏览器发送请求(获取网页代码)->提取有用的数据->存放于数据库或文件中
爬行者所做的只是方法2。
一、提出请求。
通过使用details库向目标站点发起请求,也就是发送Reque。
请求包含:请求标题、请求主体等等。
模块缺陷:无法执行JS和CSS代码。
二、获取回应内容。
如果服务器能够正确响应,那么将获得响应。
Response包含:html、json、图片、视频等等。
三、内容解析。
html数据的解析:正则表达式(RE模块)、xpath(主要是)、beautifulsoup、css。
分析json数据:json模块
分析二进制数据:写入文件时使用wb格式。
四、保存数据。
Mongdb、Redis或文件形式的数据库(MySQL)。
上面是爬虫的基本流程,我们知道爬虫的基本流程之后,就可以逐步的从底层学习了。