1 爬虫基本概念

阅读量：

一、什么是网络爬虫？

二、爬虫分类

三、如何编写爬虫

四、爬虫必备技能

一、什么是网络爬虫？

网络爬虫（也被称为网页蜘蛛、网络机器人，在相关的社区中常见的是网页追逐者），是一种按照特定规则运作、自动提取万维网数据的程序或脚本。掌握了这些技术手段，则能够实现目标。

1、数据采集

Python爬虫程序被用来收集数据。这种方法也被认为是最直接且最常用的手段之一。因为爬虫程序作为一个程序本身具备快速运行的特点，并不会因重复性工作而感到疲倦。由此可见，在获取大量数据时使用爬虫技术会变得更加便捷。

2、调研

例如调研一家电商公司时

3、刷流量和秒杀

利用Python爬虫实现功能的主要途径是其自带的流量监控功能模块。当某个Python爬虫访问某网站时，若该爬虫设计得巧妙且隐蔽性高，则会被误判为正常访问。最终导致的结果是该网页流量被意外地增加了。

二、爬虫分类

根据系统结构和实现技术的主要依据, 网络爬虫主要包含三种类型: 基于通用架构的网络爬虫、以特定主题为中心的网络爬虫以及基于增量式算法的网络爬虫。

1.通用网络爬虫

通用网络爬虫（Scalable Web Crawler）也被称为广泛应用于网络的高效抓取程序（Advanced Network Scraper），其主要功能是从初始种子URL开始逐步扩展至整个Web空间，并专注于收集数据（Data Collection）。其中包含的主要应用领域包括门户网站、搜索引擎及大型Web服务提供商的数据采集工作。例如百度、360、谷歌及必应等搜索引擎及相关服务提供商

2.聚焦爬虫

以特定主题为导向的网络爬虫（Focused Crawler），也被称为基于主题的网络爬虫（Topical Crawler），其核心在于有针对性地抓取与预先设定好的主题相关联的网页内容。这也是我们进行网络爬虫活动时必须关注的重点领域。

3.增量式爬虫

增量式网络爬虫（Incremental Web Crawler）是一种采用增量式更新策略的抓取器系统，在抓取过程中不仅会更新已下载页面的内容，并且还会仅抓取新增或发生变更的网页内容以避免重复抓取已存在的信息内容；该系统通过这种方式能够确保获取到尽可能新鲜的页面信息

三、如何编写爬虫

1.获取页面代码

urllib ---> requests

aiohttp / httpx

2.解析页面提取想要的信息

正则表达式解析 - re

XPath解析 - lxml

CSS选择器解析 - pyquery / beautifulsoup

3.存储（持久化，mysql、mongodb）/ 压缩 / 签名

4.数据清洗，归一化 ---> 数据分析 ---> 生成统计图表/报表

四、爬虫必备技能

1、python基础语法

2、如何抓取页面

使用到的python库：urllib.reqeust urllib.parse requests

3、解析内容

正则表达式、xpath、bs4、jsonpath

4、采集动态html

selenium

5、scrapy

高性能异步网络框架

6、分布式爬虫

scrapy-redis组件，在Scrapy基础上增添了一套功能模块，并实现了高效的存储与检索功能。

全部评论 (0)

还没有任何评论哟~

1 爬虫基本概念

目录一、什么是网络爬虫？二、爬虫分类三、如何编写爬虫四、爬虫必备技能一、什么是网络爬虫？网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定...

爬虫基本概念

一、爬虫的基本概念二、聚焦网络爬虫架构三、搜索引擎工作原理四、网络爬虫的功能五、网络爬虫小结

Python爬虫笔记1-基本概念

基本概念爬虫流程 1.获取网页 2.解析网页 3.储存数据工具基础语法数据类型条件语句和循环语句函数面向对象编程 1.封装封装内容调用被封装的内容 2.继承错误处理编写第一个简单...

爬虫的基本概念

一、为什么要学习爬虫学习爬虫，可以私人订制一个搜索引擎，并且可以对搜索引擎的工作原理进行更深层次地理解。当下是大数据时代，在这个信息爆炸的时代，我们可以利用爬虫获取大量有价值的数据，通过数据分析获...

Python爬虫（一）：基本概念

网络爬虫的定义网络爬虫（WebSpider，又被称为网页蜘蛛，网络机器人，又称为网页追逐者），是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁，自动索引，模拟...

python爬虫01 - 爬虫简介基本概念

一些学习方法建议 1.通讯协议 C–D单机版Jerry–有缘人 1.1端口我们想要进行数据通讯分几步? •1.找到对方ip •2.数据要发送到对方指定的应用程序上。为了标识这些应用程序,所以给这些网...

网络爬虫 - 1 网络爬虫基本概念和相关工具

网络爬虫基本概念和相关工具 1.基本概念 1什么是网络爬虫（webcrawler）? 以前经常称之为网络蜘蛛（spider），是按照一定的规则自动浏览万维网并获取信息的机器人程序（或脚本），曾经被广泛...

网络爬虫的基本概念

1.数据来源： 1.企业产生的用户数据 2.政府/机构提供的公开数据 3.第三方数据平台购买数据 4.爬虫爬取数据 2.爬虫的定义：爬虫又称网页蜘蛛，网络机器人，是一种按照一定规则，自动抓取互联网上相...

Python爬虫的基本概念和工作原理

简单了解一下Python爬虫的基本概念和工作原理。文章目录简单了解一下Python爬虫的基本概念和工作原理。前言 Python爬虫是一种自动化抓取互联网信息的程序。它通过网络请求模拟用户操作，将...

爬虫基本原理与实战---1、爬虫实战概述

一、开发前准备 1、开发环境准备 1.基础准备win10 参考：python2与python3共存安装参考：pycharm安装及永久激活参考：mysql及navicat安装与使用及navicat破...

是否确定退出登录?

1 爬虫基本概念

一、什么是网络爬虫？

1、数据采集

2、调研

3、刷流量和秒杀

二、爬虫分类

1.通用网络爬虫

2.聚焦爬虫

3.增量式爬虫

三、如何编写爬虫

1.获取页面代码

2.解析页面提取想要的信息

3.存储（持久化，mysql、mongodb）/ 压缩 / 签名

4.数据清洗，归一化 ---> 数据分析 ---> 生成统计图表/报表

四、爬虫必备技能

1、python基础语法

2、如何抓取页面

3、解析内容

4、采集动态html

5、scrapy

6、分布式爬虫

全部评论 (0)

相关文章推荐

1 爬虫基本概念

爬虫基本概念

Python爬虫笔记1-基本概念

爬虫的基本概念

Python爬虫（一）：基本概念

python爬虫01 - 爬虫简介基本概念

网络爬虫 - 1 网络爬虫基本概念和相关工具

网络爬虫的基本概念

Python爬虫的基本概念和工作原理

爬虫基本原理与实战---1、爬虫实战概述