爬取当当网图书信息

阅读量：

大体思路：
在列表页上获取的数据条数已经完整；尽管如此，在每一条单独的数据记录中仍缺少关键信息；因此，在获取每个列表页的数据时都需要先提取其对应的url；接着，在获取每个url后进行进一步的数据解析。

复制代码

    import requests
    import re
    from bs4 import BeautifulSoup
    import pandas as pd
    
    n=0
    name_list=[]
    price_list=[]
    r = requests.get("http://search.dangdang.com/?key=python&act=input")
    html = r.text
    book_url = re.findall('href="(.*?/\d{8}.html)"',html)
    #在列表页爬取单条数据的url链接
    for book in book_url: #遍历爬过来的url
    n=n+1
    if n%2 ==0:  #因为自取url会重复一次，故跳过一次重复的url
        R = requests.get(book)
        htm = R.text
        soup = BeautifulSoup(htm,'html.parser')
        h1 = soup.find('h1') #查找出书名
        name_list.append(soup.h1['title'])
        p = soup.find_all(id=re.compile('dd-price')) #返回含id='dd-price'的标签
        price_list.append(p[1].contents[2].strip())
    else:
        continue
    
    df = pd.DataFrame([name_list,price_list]).T  #转化为DataFrame对象数据
    df = df.rename(columns={0:'book',1:'price'}) #加表头
    
    df.to_csv('pythonbook.csv',index=False) #数据存储

最终结果如下：

全部评论 (0)

还没有任何评论哟~

爬取当当网图书信息

大体思路：列表页数据条数完整，但单条数据信息不完整，所以先爬取列表页单条数据的url；再从这个url中提取每条数据的详细信息。 importrequests importre frombs4imp...

当当图书信息爬取

效果：分析： version0 声明：未经许可，不能作为商业用途总结：通过//div[@class=xxx]可能取到的数据是不全面的,这时候不妨考虑使用//div[contains@calss,'...

python 爬虫爬取当当网图书信息

初次系统的学习python，在学习完基本语法后，对爬虫进行学习，现在对当当网进行爬取，爬取了基本图书信息，包括图书名、作者等 importrequests fromtimeimportsleep fr...

Python爬虫当当网图书信息

@data2019/12/415:02 importrequests frombs4importBeautifulSoup importrandom importbs4 myheaders=[ Moz...

当当网程序设计类图书信息爬取

当当网程序设计类图书信息爬取思路分析项目目录代码结果展示总结分析思路分析思路较为简单，就是循环遍历提取每一页的图书信息，再通过管道存入MongoDB数据库。

scrapy-redis分布式爬虫，爬取当当网图书信息

前期准备虚拟机下乌班图下redis：url去重，持久化 mongodb：保存数据 PyCharm：写代码谷歌浏览器：分析要提取的数据爬取图书每个分类下的小分类下的图书信息（分类标题，小分类标题，...

Scrapy实践-爬取当当网书籍信息

PythonScrapy库爬虫——爬取当当网书籍实现爬虫获得豆瓣书籍信息存入数据库中，学习记录根据分类获取书籍信息，包括书籍名字、作者、出版社、出版日期、价格等信息根据书籍类别存入数据库完整爬...

Python爬虫在线爬取当当网畅销书Top500的图书信息

本实例还有另外的离线爬虫实现,有兴趣可点击离线爬取当当网畅销书Top500的图书信息爬虫说明 1.使用requests和Lxml库爬取,用BS4也很简单,这里是为了练习Xpath的语法 2.爬虫分类...

Python爬虫离线爬取当当网畅销书Top500的图书信息

本实例还有另外的在线爬虫实现,有兴趣可点击在线爬取当当网畅销书Top500的图书信息爬虫说明 1.使用requests和Lxml库爬取,用BS4也很简单,这里是为了练习Xpath的语法 2.爬虫分类...

爬取当当网图书图片

importrequests frombs4importBeautifulSoup importre defgetHTMLTexturl: try: r=requests.geturl r.encod...

是否确定退出登录?

爬取当当网图书信息

全部评论 (0)

相关文章推荐

爬取当当网图书信息

当当图书信息爬取

python 爬虫 爬取当当网图书信息

Python爬虫 当当网图书信息

当当网程序设计类图书信息爬取

scrapy-redis分布式爬虫，爬取当当网图书信息

Scrapy实践-爬取当当网书籍信息

Python爬虫 在线爬取当当网畅销书Top500的图书信息

Python爬虫 离线爬取当当网畅销书Top500的图书信息

爬取当当网图书图片

python 爬虫爬取当当网图书信息

Python爬虫当当网图书信息

Python爬虫在线爬取当当网畅销书Top500的图书信息

Python爬虫离线爬取当当网畅销书Top500的图书信息