练习使用Scrapy爬取当当网商品数据

阅读量：

目标站点：”http://category.dangdang.com/pg1-cp01.54.04.00.00.00.html“

需求数据：商品标题、链接、价格、评论数

要求：实现自动翻页并自动写如数据库

第一步在项目文件夹下打开终端，使用一下命令创建项目。

复制代码

    scrapy startproject dangdang

第二部创建爬虫文件

复制代码

    scrapy genspider -t basic ddts dangdang.com

第三步在items文件下写入即将要爬的内容

复制代码

 title = scrapy.Field()

    
 link = scrapy.Field()
    
 price = scrapy.Field()
    
 comment = scrapy.Field()

第四步编写爬虫文件

首先我们打开网页，在源代码里面找到定位元素，然后编写爬取规则，下面是我的代码

复制代码

 item["title"] = response.xpath("//a[@name='itemlist-title']/@title").extract()

    
 item["link"] = response.xpath("//a[@name='itemlist-title']/@href").extract()
    
 item["price"] = response.xpath("//span[@class='search_now_price']/text()").extract()
    
 item["comment"] = response.xpath("//a[@name='itemlist-review']/text()").extract()
    
 yield item
    
 # 实现翻页
    
 for i in range(2,101):
    
     url = "http://category.dangdang.com/pg" + str(i) + "-cp01.54.04.00.00.00.html"
    
     yield Request(url, callback=self.parse)

第五步编写pipelines

复制代码

 class DangdangPipeline(object):

    
     def process_item(self, item, spider):
    
     conn = pymysql.connect(host='155.94.140.40',user='root',passwd='qq726819gzq.',db='dangdang',charset='utf8')
    
     for i in range(0, len(item["title"])):
    
         title = item["title"][i]
    
         link = item["link"][i]
    
         price = item["price"][i]
    
         comment = item['comment'][i]
    
         sql = "insert into book(title, link, price, comment) values('"+title+"','"+link+"','"+price+"','"+comment+"')"
    
         # print(title+'\n'+link+'\n'+price+'\n'+comment+'\n'+'------')
    
         conn.query(sql)
    
         conn.commit()
    
     conn.close()
    
     return item

这一步在设置数据库的时候注意改变数据库的的编码方式为utf8😭

新手练习，请大佬多多指点🙃

全部评论 (0)

还没有任何评论哟~

练习使用Scrapy爬取当当网商品数据

目标站点：”<http://category.dangdang.com/pg1cp01.54.04.00.00.00.html“ 需求数据：商品标题、链接、价格、评论数要求：实现自动翻页并自动写如数...

scrapy爬取当当网商品信息

目标：利用scrapy框架爬取多页当当网商品标题，链接和评论数信息并保存在本地数据库中首先创建爬虫项目和爬虫模板文件爬取商品标题商品链接商品评论创建容器容纳他们查看网页源代码，找到规律通...

Scrapy入门、当当网商品爬取实战

文章目录一.如何创建Scrapy爬虫项目二.Scrapy的一些指令说明三.当当网商品爬取实战一.如何创建Scrapy爬虫项目（1）Win+R打开cmd，假如我要在F盘的Scrapy文件中创建...

scrapy+Xpath实现爬取当当网商品信息

实现目标及效果：可以通过scrapy+Xpath表达式实现爬取当当网商品的标题、评论和商品链接，并能实现自动分页爬取多页商品信息（比如40页的信息），并将爬取到的信息全部写入数据库当中。由于会用...

爬虫实战：使用Scrapy框架爬取当当网商品信息。（信息存入本地数据库）

一.Xpath表达式基础 1.XPath与正则表达式简单对比。（1）XPath表达式效率高一些。（2）正则表达式功能强大一点。 ...（3）一般来说，优先选择XPath，但是XPath解决不...

爬虫------爬取当当网服装信息（使用scrapy）

一、总体思路 1、创建scrapy项目 2、分析当当网特产网址 3、分析出所取部分xpath公式 4、编写item 5、编写爬虫 6、编写pipline文件将取到的数据存入到mysql中二、具体实现...

python爬虫之--爬取当当网商品信息

python爬虫之爬取当当网图商品信息利用：requests，re 爬取目标：目标：中国文学书籍商品标题商品链接商品价格商品评论第一步：打开网址，查看网址变化规律，构造网址第一页：h...

用Scrapy抓取当当网站数据

setting.py实验目的及要求：【实验目的】通过本实验了解Scrapy爬虫框架；熟练掌握Scrapy的基本使用方法和常用技巧。【实验要求】使用Scrapy框架，抓取网站商品信息（京东、淘宝...

Python实战案例分享：爬取当当网商品数据

作者：韦玮转载请注明出处目前，网络爬虫应用领域非常广，在搜索引擎、大数据分析、客户挖掘中均可以用到。在本篇博文中，韦玮老师会以当当网爬虫为例，为大家讲解如何编写一个自动爬虫将当当网的商品数据都...

用selenium爬当当网商品信息

【项目介绍】参考崔庆才老师《Python3网络爬虫开发实战》第七章动态渲染页面爬取里爬淘宝网的实例，由于现在淘宝网查找需要先登录，故用当当网进行尝试。 1.动态加载页面的判断？ F12→找到对应ur...

是否确定退出登录?

练习使用Scrapy爬取当当网商品数据

全部评论 (0)

相关文章推荐

练习使用Scrapy爬取当当网商品数据

scrapy爬取当当网商品信息

Scrapy入门、当当网商品爬取实战

scrapy+Xpath实现爬取当当网商品信息

爬虫实战：使用Scrapy框架爬取当当网商品信息。（信息存入本地数据库）

爬虫------爬取当当网服装信息（使用scrapy）

python爬虫之--爬取当当网商品信息

用Scrapy抓取当当网站数据

Python实战案例分享：爬取当当网商品数据

用selenium爬当当网商品信息