020-29815005
预约专线时间:09:00-23:59

python爬行器应用广泛,如何避免挖坑?

新闻来源:本站 日期:2021-06-22
爬虫应用非常广泛,如搜索引擎,收集数据,广告过滤,数据分析等等。在对一些站点内容进行爬取时,我们可以写出多个爬虫,但对于需要爬取多个站点内容的项目,我们无法编写出多个爬虫,而此时我们需要使用智能爬虫。
  有三种智能爬虫:

  1.基于网页内容的爬虫程序。

  如果一个网页包含了很多需要提取的信息,我们就需要使用基于Web内容的爬虫。这种爬虫把HTML当作文本对待,利用NLP技术来处理。

  尽管称这种基于网页内容的爬虫能够减少爬虫的数量,但需要人工参与来训练NLP模型,没有AI开发经验或AI开发经验极少的程序员难以写出这种爬虫,而且爬虫耗时长且效率低。



  2.DOM结构为基础的爬虫。

  相对来说,基于DOM结构的爬虫比较简单,它只需要将HTML解析成DOM树,然后再根据语法结构提取信息,其效率和精确度要高于前者。

  3.可视化爬虫。

  可视化爬行器也具有同样的开发难度,它是通过浏览器界面或浏览器内核对目标网页进行爬行,然后根据网页的视觉规律提取网页数据。该爬虫需要使用神经网络的CNN卷积神经网络来获得网页特定区域的内容。

  现在最常用的只有Readability和Swyper这两个爬虫框架。