Advertisement

python爬取京东评论分析_Python爬取京东商品评价(动态网页的爬取)

阅读量:

首先打开京东的任意几个商品页面,并观察URL,可以发现都是https://item.jd.com/+数字+.htm的格式,而且数字也随着商品的改变而改变,基本上可以确定这串数字是商品ID
fd4962aeba9d521df019e1c5f4068b5f.png

之后我们找到网页的源码并随便复制一句评论,在网页源码中查找,发现并没有找到评论内容,说明jd的评论页面并非静态网页

AJAX:AJAX的全称是Asynchronous JavaScript and XML(异步的 JavaScript 和 XML)。ajax不是新的编程语言,而是一种使用现有标准的新方法。ajax是与服务器交换数据并更新部分网页的艺术,在不重新加载整个页面的情况下。ajax是一种在无需重新加载整个网页的情况下,能够更新部分网页的技术。ajax是一种用于创建快速动态网页的技术。通过在后台与服务器进行少量数据交换。ajax可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。而传统的网页(不使用ajax)如果需要更新内容,必须重载整个网页面。

既然确定是AJAX的方式加载,我们可以直接打开chrome的调试工具,在network中的XHR和JS中寻找保存有评论的文件。注意这里必须先下拉到评论页面使数据文件加载下来,否则会找不到加载的数据文件

我们可以通过两种方式来查找包含评论的文件:1.可以在js和XHR中寻找comment关键字,查看是否有文件符合要求,并对符合要求的结果筛选2.评论在页面的最下方,根据文件的加载顺序可以大致了解到会在后面,从后面开始找即可

最终确定js文件,如下图所示
7af1d2ef248a6ed8114135dc922ae007.png

这样我们就可以确定评论的请求地址并开始抓取

import requests

import json

url='https://item.jd.com/52297931949.html'

jsonurl='https://club.jd.com/comment/productPageComments.action?productId=52297931949&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1'

html=requests.get(jsonurl).text

#print(html)

josntext=json.loads(html)

comments= josntext['comments']

for comment in comments:

content = comment['content']

print(content)

这里需要注意一下原始的jsonurl得到的文件并不是标准的json文件格式,我们可以将得到的文本内容复制到https://www.json.cn发现这并不是一个标准的josn文件,所以直接loads()会直接报错:json.decoder.JSONDecodeError: Expecting value: line 1 column 1 (char 0),只要返回的对象不是josn对象就会出现此错误解决的方法有两个,一是将URL中的?callback=fetchJSON_comment98去除,另外一种方法是将返回的文本对象中的fetchJSON_comment98替换为空

得到所需要的json文件后就可以将数据存到sqllite中了sqllite是python内置的关系型数据库,具有以下优点:

不需要一个单独的服务器进程或操作的系统(无服务器的)。

SQLite不需要配置,这意味着不需要安装或管理。

一个完整的SQLite数据库是存储在一个单一的跨平台的磁盘文件。

SQLite是非常小的,是轻量级的,完全配置时小于 400KiB,省略可选功能配置时小于250KiB。

SQLite是自给自足的,这意味着不需要任何外部的依赖。

SQLite事务是完全兼容 ACID 的,允许从多个进程或线程安全访问。

SQLite支持 SQL92(SQL2)标准的大多数查询语言的功能。

SQLite使用 ANSI-C 编写的,并提供了简单和易于使用的 API。

SQLite 在 UNIX(Linux, Mac OS-X, Android,iOS)和 Windows(Win32, WinCE,WinRT)中运行。

python操作SQLite流程与连接其他的数据库相同,大概分为以下五步

通过sqlite3.open()创建与数据库文件的连接对象connection;

通过connection.cursor()创建光标对象cursor;

通过cursor.execute()执行SQL语句;

通过connection.commit()提交当前的事务,或者通过cursor.fetchall()获得查询结果;

通过connection.close()关闭与数据库文件的连接

这一部分代码如下所示

conn=sqlite3.connect("comments.db")#建立连接,数据库存在时,直接连接;不存在时,创建相应数据库

#新建一张表

conn.execute('''CREATE TABLE Comments_jd

(ID text PRIMARY KEY NOT NULL,

comment text );''')

#注意sql语句中使用了格式化输出的占位符%s和%d来表示将要插入的变量,其中%s需要加引号''

for comment in comments:

sql = "insert into Comments_jd(ID,comment) values('%s','%s')" % (comment['id'],comment['content'])

conn.execute(sql)conn.commit()

关闭数据库连接

conn.close()

之后检查以下数据是否有问题:

conn=sqlite3.connect("comments.db")

cursor = conn.execute("select * from Comments_jd")

for row in cursor:

print('ID = ', row[0], ' Comment = ', row[1])

conn.close()

得到的结果如下图所示
8e092b0dc54c1c10d2f8a4a6d41bb5d5.png

image.png

这样整个流程就搞定了

最终的代码如下:

import requests

import json

import sqlite3

def get_comments(good_id):

#good_url_template = 'https://item.jd.com/{}.html'.format(good_id)

jsonurl='https://club.jd.com/comment/productPageComments.action?productId={}&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1'.format(good_id)

html=requests.get(jsonurl).text

return html

def data_stored(html):

conn = sqlite3.connect("comments.db") # 建立连接,数据库存在时,直接连接;不存在时,创建相应数据库

新建一张表

conn.execute('''CREATE TABLE Comments_jd

(ID text PRIMARY KEY NOT NULL,

comment text );''')

josntext=json.loads(html)

comments= josntext['comments']

#注意sql语句中使用了格式化输出的占位符%s和%d来表示将要插入的变量,其中%s需要加引号''

for comment in comments:

sql = "insert into Comments_jd(ID,comment) values('%s','%s')" % (comment['id'],comment['content'])

conn.execute(sql)

conn.commit()

关闭数据库连接

conn.close()

if name == 'main':

html=get_comments(str(52297931949))

data_stored(html)

全部代码已上传至https://github.com/smilecoc/jd_comments_spider

后续准备对获取的数据进行进一步的分析

全部评论 (0)

还没有任何评论哟~