Advertisement

scrapy框架爬虫定时爬取

阅读量:

通过crontab配置实现scrapy的定时爬取需求。主要原因在于scrapy框架本身并未提供直接配置定时爬取的功能。

1. 什么是Crontab?

Crontab工具用于管理类Unix系统中的定期任务设定。它通过标准输入接收指令并存储于'Crontab'文件中作为备用文件以便后续调用与执行这些指令。该工具内的指示会被专门的守护进程负责启动相应的作业流程.crond则持续地每分钟检查是否存在需要立即执行的任务此类任务通常被称为cron作业

1. 打开Ubuntu中的crontab功能

在Ubuntu中,crontab功能默认是关闭的,需要我们自己打开。

复制代码
    emacs  /etc/rsyslog.d/50-default.conf

所打开的文件中,将

复制代码
    cron.*                 /var/log/cron.log

这一行的注释打开。

然后重启系统服务,使刚才的改变生效。命令是:

复制代码
    $ sudo service syslog restart

2. contab的命令格式

复制代码
    Crontab命令格式
    */1 * * * *           每分钟执行一次
       0 * * * *           每小时执行一次
       0 0 * * *           每天执行一次
       0 0 * * 0           每周执行一次
       0 0 1 * *           每月执行一次
       0 0 1 1 *           每年执行一次

3. 编辑crontab要执行的命令和执行频率

使用命令

复制代码
    crontab -e

会出现下面这些选项,直接输入数字选择打开所需的编辑器即可。

在打开的文件中的最后一行,添加要执行的命令和执行频率:

全部评论 (0)

还没有任何评论哟~