python 爬虫爬取当当网图书信息

阅读量：

复制代码

    ****

复制代码

    **初次系统的学习python，在学习完基本语法后，对爬虫进行学习，现在对当当网进行爬取，爬取了基本图书信息，包括图书名、作者等**

复制代码

 import requests

    
 from time import sleep
    
 from lxml import etree
    
 class dangdang_spider():
    
 #定义爬虫类
    
     def __init__(self):
    
     self.url="http://category.dangdang.com/pg{}-cp01.00.00.00.00.00.html" #爬虫网址
    
     self.headers= {#设置headers
    
         'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'}
    
 #爬取基本网页信息
    
     def parse(self,url):
    
      r=requests.get(url,headers=self.headers)
    
      return r.content.decode(encoding='gbk')
    
 #对数据处理
    
     def handle_data(self, data,i):
    
     html = etree.HTML(data)#对信息进行html格式化
    
     msg_list=[]
    
     li_list=html.xpath("// ul[ @ id = 'component_0__0__6612']/li")#利用xpath锁定图书信息所在的html标签
    
     for li in li_list:
    
         msg = {}
    
         msg['book_title'] = li.xpath('./p/a/text()')[0]
    
         msg['book-author'] = li.xpath('./p/span[1]/a[1]/@title')[0]if len(li.xpath('./p/span[1]/a[1]/@title')) >0 else '无'
    
         msg['book-publish'] = li.xpath('./p/span[3]/a/text()')[0]if len(li.xpath('./p/span[3]/a/text()')) >0 else '无'
    
         msg['book-publish_time'] = li.xpath('./p[5]/span[2]/text()')[0].replace(' /','')if len(li.xpath('./p[5]/span[2]/text()')) >0 else '无'
    
         msg['book-descrip'] = li.xpath('./p[2]/text()')[0]if len(li.xpath('./p[2]/text()')) >0 else '无'
    
         msg['book-price'] = li.xpath('./p[3]/span[1]/text()')[0]
    
         msg['book-pinglun'] = li.xpath('./p[4]/a/text()')[0]
    
         msg_list.append(msg)
    
     # print(msg_list)
    
  
    
     next_url = self.url.format(i) #构建下一页url
    
     return msg_list, next_url
    
     def save_data(self,data):
    
     for msg in data:
    
         msg_str=msg['book_title']+','+msg['book-author']+','+msg['book-publish']+','+msg['book-publish_time']+','+msg['book-descrip']+','+msg['book-price']+','+msg['book-pinglun']
    
         print(msg_str)
    
         with open('dangdang.csv','a',encoding='utf-8') as f: #写入文件
    
             f.write(msg_str)
    
             f.write('\n')
    
     def run(self):
    
     i=1
    
     next_url=self.url.format(i)
    
     while next_url:
    
         html_str=self.parse(next_url)
    
         i = i + 1
    
         msg_list, next_url=self.handle_data(html_str,i)
    
         self.save_data(msg_list)
    
         print(next_url)
    
         sleep(2)
    
  
    
 if __name__ == '__main__':
    
     d=dangdang_spider()
    
     d.run()

复制代码

    **[爬取结果截图]() [爬取结果截图]()**

复制代码

全部评论 (0)

还没有任何评论哟~

python 爬虫爬取当当网图书信息

初次系统的学习python，在学习完基本语法后，对爬虫进行学习，现在对当当网进行爬取，爬取了基本图书信息，包括图书名、作者等 importrequests fromtimeimportsleep fr...

Python爬虫当当网图书信息

@data2019/12/415:02 importrequests frombs4importBeautifulSoup importrandom importbs4 myheaders=[ Moz...

Python爬虫——当当网玄幻书籍信息的爬取

Note:这篇文章是对第一次完整使用scrapy框架进行项目实践的详细记载。本次操作页面是当当网书籍界面，目标是爬取100页所有书籍的名称、图片，还有价格。主要目的是对scrapy框架实战进行基础的...

爬取当当网图书信息

大体思路：列表页数据条数完整，但单条数据信息不完整，所以先爬取列表页单条数据的url；再从这个url中提取每条数据的详细信息。 importrequests importre frombs4imp...

Python爬虫在线爬取当当网畅销书Top500的图书信息

本实例还有另外的离线爬虫实现,有兴趣可点击离线爬取当当网畅销书Top500的图书信息爬虫说明 1.使用requests和Lxml库爬取,用BS4也很简单,这里是为了练习Xpath的语法 2.爬虫分类...

Python爬虫离线爬取当当网畅销书Top500的图书信息

本实例还有另外的在线爬虫实现,有兴趣可点击在线爬取当当网畅销书Top500的图书信息爬虫说明 1.使用requests和Lxml库爬取,用BS4也很简单,这里是为了练习Xpath的语法 2.爬虫分类...

scrapy-redis分布式爬虫，爬取当当网图书信息

前期准备虚拟机下乌班图下redis：url去重，持久化 mongodb：保存数据 PyCharm：写代码谷歌浏览器：分析要提取的数据爬取图书每个分类下的小分类下的图书信息（分类标题，小分类标题，...

Python 爬虫第三步 -- 多线程爬虫爬取当当网书籍信息

XPath的安装以及使用 1.XPath的介绍刚学过正则表达式，用的正顺手，现在就把正则表达式替换掉，使用XPath，有人表示这太坑爹了，早知道刚上来就学习XPath多省事啊。其实我个人认为学习一下...

当当图书信息爬取

效果：分析： version0 声明：未经许可，不能作为商业用途总结：通过//div[@class=xxx]可能取到的数据是不全面的,这时候不妨考虑使用//div[contains@calss,'...

python爬虫爬当当网_爬虫实战一：爬取当当网所有 Python 书籍

本文转载自微信公众号[极客猴]，作者知乎主页此前错误标注来源导致侵权，在此表示歉意。我们已经学习urllib、re、BeautifulSoup这三个库的用法。但只是停留在理论层面上，还需实践来检验...

是否确定退出登录?

python 爬虫 爬取当当网图书信息

全部评论 (0)

相关文章推荐

python 爬虫 爬取当当网图书信息

Python爬虫 当当网图书信息

Python爬虫——当当网玄幻书籍信息的爬取

爬取当当网图书信息

Python爬虫 在线爬取当当网畅销书Top500的图书信息

Python爬虫 离线爬取当当网畅销书Top500的图书信息

scrapy-redis分布式爬虫，爬取当当网图书信息

Python 爬虫第三步 -- 多线程爬虫爬取当当网书籍信息

当当图书信息爬取

python爬虫爬当当网_爬虫实战一：爬取当当网所有 Python 书籍

python 爬虫爬取当当网图书信息

python 爬虫爬取当当网图书信息

Python爬虫当当网图书信息

Python爬虫在线爬取当当网畅销书Top500的图书信息

Python爬虫离线爬取当当网畅销书Top500的图书信息