python爬虫用多线程还是多进程_爬虫进阶Python多线程和多进程

阅读量：

Python支持多线程，并提供thread标准库。许多开发者认为Python的多线程功能存在不足之处，并建议转向使用多进程以提高性能和稳定性。

Python为了安全考虑有一个GIL。每个CPU在同一时间只能执行一个线程

Global Interpreter Lock（简称GIL）是其英文名称,它类似于一个通行证.每个线程都需要首先申请这个通行证.获得这个通行证后,才有可能进入中央处理器进行操作.

每个线程的执行方式：

1、获取GIL

2、执行代码直到sleep或者是python虚拟机将其挂起。

3、释放GIL

每次释放完GIL锁后, 线程会在释放后进行争用以及切换至另一个线程的过程中导致资源消耗。同时, 由于存在GIL机制的存在, 在Python中同一个进程也只能同时运行一个能够获得该资源的子进程（只有获得GIL才能运行）；因此, 在具有多个处理器核的情况下, Python的整体多子进程执行效率相对较低。

本例采用了多线队列机制作为实现框架，在测试过程中采用Selenium技术进行数据抓取，并基于Chrome浏览器运行在无脚本模式下。运行速度较慢的情况下可以直接调用相关的Python库模块来加速抓取过程；如果需要完成整个网站的数据获取则建议使用Scrapy框架来进行处理

通过Threading模块实现线程的创建，并直接继承自threading.Thread类；同时具体实现init和run功能。

线程同步

如果多个线程共同修改同一个数据，则可能导致不可预知的结果。为确保数据的一致性，必须对所有线程实施同步机制。

通过Thread对象提供的Lock与Rlock类可实现基本的线程同步机制。这些类均配备有各自的acquire与release方法。对于仅限一个线程执行的操作数据，则应在相应的acquire与release方法之间进行处理。例如：

主要优势体现在能够并行执行多个任务（至少从我们的角度来看）。然而，在某些情况下（如涉及共享数据时），可能会导致数据不一致的问题。

假设一个列表中所有的元素都初始化为0值，在这种情况下有两个进程协同工作：其中一个进程逆序地将每个元素设置为1；另一个进程则按照顺序遍历并输出整个列表的内容。

那么，在线程set开始执行修改时（即"set"操作完成），当print试图访问共享的列表（即"print"操作发起），就会出现一半0一半1的情况（即数据不一致）。为了避免这种情况的发生（即避免数据不一致现象），引入了锁（即锁机制）的概念（即锁概念）。

该系统中存有两种类型的互斥资源控制机制——一种是被锁定状态（locked），另一种是未被锁定状态（unlocked）。当任意一个执行操作如'set'的操作单元试图访问共享资源时，则必须先尝试获取当前锁；若发现当前已有其他进程正在执行操作如'print'而占用该资源，则会使得该操作单元的操作暂时搁置（阻塞）直至被允许重新开始执行为止。

经过这样的优化处理，在打印列表时只能是全0或全1，并避免出现部分为0部分为1的情况。

线程优先级队列

Python的Queue模块提供了实现同步与线程安全功能的队列类，并包含三种类型：FIFO（先进先出）队列为Queue类、LIFO（后进先出）队列为LifoQueue类以及优先级队列PriorityQueue。这些类均实现了锁原语机制，并可在多线程环境中直接应用。通过合理配置这些数据结构能够有效实现各线程之间的协调运作。

Queue模块中的常用方法:

Queue.qsize() 返回队列的大小

Queue.empty() 如果队列为空，返回True,反之False

Queue.full() 如果队列满了，返回True,反之False

Queue.full 与 maxsize 大小对应

Queue.get([block[, timeout]])获取队列，timeout等待时间

Queue.get_nowait() 相当Queue.get(False)

Queue.put(item) 写入队列，timeout等待时间

Queue.put_nowait(item) 相当Queue.put(item, False)

Queue.task_done()函数在一项任务完成后向相关队列发出通知

Queue.join() 实际上意味着等到队列为空，再执行别的操作

importqueue

importthreading

fromselenium importwebdriver

fromselenium.webdriver.chrome.options importOptions

exitFlag = 0q = queue.Queue()

chrome_options = Options()

chrome_options.add_argument('--headless')

classscrapy_biquge():

defget_url(self):

browser = webdriver.Chrome(chrome_options=chrome_options)

browser.get('http://www.xbiquge.la/xuanhuanxiaoshuo/')

content = browser.find_element_by_class_name("r")

content = content.find_elements_by_xpath('//ul/li/span[@class="s2"]/a')

fori incontent:

title = i.text

href = i.get_attribute('href')

print(title+'+'+href)

q.put(title+'+'+href)

browser.close()

browser.quit()

子类myThread继承自库中的基础线程类threading.Thread。注释：#作为库提供的基础线程类threading.Thread的子类
def init(self, threadID, name, counter):
使用初始化方法初始化实例参数包括线程标识、名称以及计数器变量

threading.Thread.init(self)

self.threadID = threadID

self.name = name

self.counter = counter

def run(self): #将执行的代码注入到run函数内 #将要运行的操作嵌入到该方法中将要运行的操作包含在 $run$ 方法体内#当线程被创建时该方法会被自动执行

while notexitFlag:

queueLock.acquire()

if notq.empty():

item = q.get()

queueLock.release()

title = item.split('+')[0]

href = item.split('+')[1]

get_content(title,href)

else:

print('数据全部结束')

queueLock.release()

defget_content(title,href):

browser = webdriver.Chrome(chrome_options=chrome_options)

browser.get(href)

browser.find_element_by_id('list')

novel_content = browser.find_elements_by_xpath('//dl/dd/a')

fornovel innovel_content:

novel_dir = novel.text

novel_dir_href = novel.get_attribute('href')

print(title,novel_dir,novel_dir_href)

browser.close()

browser.quit()

if__name__ == 'main':

#所有url进队列以后，启动线程scrapy_biquge().get_url()

threadList = ["Thread-1","Thread-2","Thread-3"]

queueLock = threading.Lock()

threads = []

threadID = 1#创建新线程fortName inthreadList:

thread = myThread(threadID,tName,q)

thread.start()

threads.append(thread)

threadID += 1#等待队列清空while notq.empty():

pass#通知线程是时候退出exitFlag = 1#等待所有线程完成fort inthreads:

t.join()

print("Exiting Main Thread")

上面的例子用了FIFO队列。当然你也可以换成其他类型的队列.

LifoQueue后进先出

Priority Queue优先队列

Python多进程，multiprocessing，下次使用多进程跑这个代码。

参考：https://cuiqingcai.com/3325.html

全部评论 (0)

还没有任何评论哟~

python爬虫用多线程还是多进程_爬虫进阶Python多线程和多进程

Python多线程，thread标准库。都说Python的多线程是鸡肋，推荐使用多进程。 Python为了安全考虑有一个GIL。每个CPU在同一时间只能执行一个线程 GIL的全称是GlobalInte...

python爬虫之多线程、多进程爬虫

一、原因多线程对爬虫的效率提高是非凡的，当我们使用python的多线程有几点是需要我们知道的： 1.Python的多线程并不如java的多线程，其差异在于当python解释器开始执行任务时，受制于G...

Python爬虫编程思想（142）：多线程和多进程爬虫--多进程

尽管多线程可以实现并发执行，不过多个线程之间是共享当前进程的内存的，也就是说，线程可以申请到的资源有限。要想更能发挥并发的作用，可以考虑使用多进程。如果建立的进程比较多，可以使用multiproce...

python爬虫（中）--多进程和多线程

前言前面我们讲到了基本爬虫包括请求、提取和保存三个部分，这是一个基本爬虫应该有的部分，那么这时候的这个爬虫有了能爬能存的能力，但是这种能力是很弱的，弱主要体现在三点：①爬虫本身健壮性并不高，有很多情...

Python 爬虫进阶篇——多线程

本文介绍一下多线程。不过值得注意的是，不能滥用多线程，多线程爬虫请求内容速度过快，可能会导致服务器过载，或者是IP被封禁。为了避免这一问题，我们在使用多线程爬虫的时候需要设置一个delay时间，用于请...

Python爬虫编程思想（135）：多线程和多进程爬虫--Python与线程

目录 1\.使用单线程执行程序 2\.使用多线程执行程序 3\.为线程函数传递参数 4\.线程和锁 Python语言虽然支持多线程编程，但还是需要取决于具体会用的操作系统。当然，现代的操作系统基本上都...

Python爬虫编程思想（139）：多线程和多进程爬虫--线程锁

多线程的目的就是让多段程序并发运行，但在一些情况下，让多段程序同时运行会造成很多麻烦，如果这些并发运行的程序还共享数据的话，有可能会造成脏数据以及其他数据不一致的后果。这里的脏数据是指由于多段程序同时...

Python爬虫编程思想（134）：多线程和多进程爬虫--线程与进程详解

目录 1\.进程 2\.线程线程和进程都可以让程序并行运行，但很多读者会有这样的疑惑，这两种技术有什么区别呢？本文将为读者解开这个疑惑。 1\.进程计算机程序有静态和动态的区别。

爬虫day7多线程和多进程

爬虫day7多线程和多进程一、什么是线程和进程 1、什么是进程一个正在运行的应用程序就是一个进程。每一个进程均运行在其专用且受保护的内存运行内容中 2、什么是线程线程是进程执行任务的基本单元。...

python爬虫（6）爬虫晋级知识--多进程和多线程

一、selenium的三种等待 1、强制等待：不管页面是否被加载出来，强制让进程等待。 time.sleep2 2、隐式等待：driver.implicitlywait20 设置20秒的最大等待时长，...

是否确定退出登录?

python爬虫用多线程还是多进程_爬虫进阶Python多线程和多进程

全部评论 (0)

相关文章推荐

python爬虫用多线程还是多进程_爬虫进阶Python多线程和多进程

python爬虫之多线程、多进程爬虫

Python爬虫编程思想（142）：多线程和多进程爬虫--多进程

python爬虫（中）--多进程和多线程

Python 爬虫进阶篇——多线程

Python爬虫编程思想（135）：多线程和多进程爬虫--Python与线程

Python爬虫编程思想（139）：多线程和多进程爬虫--线程锁

Python爬虫编程思想（134）：多线程和多进程爬虫--线程与进程详解

爬虫day7多线程和多进程

python爬虫（6）爬虫晋级知识--多进程和多线程