python爬取链家网_python - 爬虫入门练习爬取链家网二手房信息

阅读量：

import requests

from bs4 import BeautifulSoup

import sqlite3

conn = sqlite3.connect("test.db")

c = conn.cursor()

for num in range(1,101):

url = "https://cs.lianjia.com/ershoufang/pg%s/"%num

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)Chrome/64.0.3282.140 Safari/537.36',

}

req = requests.session()

response = req.get(url, headers=headers, verify=False)

info = response.text

f1 = BeautifulSoup(info,'lxml')

f2 = f1.find(class_='sellListContent')

f3 = f2.find_all(class_='clear LOGCLICKDATA')

for i in f3:

data_id = i.find(class_="noresultRecommend").get('data-housecode')

href = i.find( class_ ="noresultRecommend img ").get('href')

title = i.find(class_ ="title").get_text()

adress = i.find(class_="houseInfo").get_text().split("|")

jage = i.find(class_="totalPrice").get_text()

print(k,data_id, '|', title, '|', adress, '|', jage, '|', href)

print("---")

dz = ''

fx = ''

dx = ''

cx = ''

zx = ''

dt = ''

if len(adress) == 6:

dz = adress[0]

fx = adress[1]

dx = adress[2]

cx = adress[3]

zx = adress[4]

dt = adress[5]

elif len(adress) ==5:

dz = adress[0]

fx = adress[1]

dx = adress[2]

cx = adress[3]

zx = adress[4]

dt = 'None'

print(dz,fx,dx,cx,zx,dt)

elif len(adress) < 5:

print(dz, fx, dx, cx, zx, dt)

info = {'nid':int(data_id),

'title':title,

'dz':dz,

'fx':fx,

'dx':dx,

'cx':cx,

'zx':zx,

'dt':dt,

'jg':jage,

'url':href}

print(info)

x = info

sql = "insert into rsf(nid,dz,fx,dx,cx,zx,dt,jg,title,url)values(%d,'%s','%s','%s','%s','%s','%s','%s','%s','%s')" % (x['nid'], x['dz'], x['fx'], x['dx'], x['cx'], x['zx'], x['dt'], x['jg'], x['title'], x['url'])

cursor = c.execute(sql)

conn.commit()

print("OK")

conn.close()

import json

file_path = 'info%s.txt'%num

json_data = json.dumps(info_list).encode('utf8')

with open(file_path,'wb') as f:

f.write(json_data)

sqlite3 读取数据

import sqlite3

conn = sqlite3.connect("test.db")

c = conn.cursor()

#sqlit3 查询数据

cursor = c.execute("SELECT * from rsf")

k = 1

for row in cursor:

num = float(row[7].split('万')[0])

if 30.0 < num < 50.0:

print(k,row[1],row[3],num,row[-2])

k +=1

conn.close()

Python的scrapy之爬取链家网房价信息并保存到本地

因为有在北京租房的打算,于是上网浏览了一下链家网站的房价,想将他们爬取下来,并保存到本地. 先看链家网的源码..房价信息都保存在 ul 下的li 里面爬虫结构: 其中封装了一个数据库处理模 ...

43.scrapy爬取链家网站二手房信息-1

首先分析:目的:采集链家网站二手房数据1.先分析一下二手房主界面信息,显示情况如下: url = https://gz.lianjia.com/ershoufang/pg1/显示总数据量为27589套 ...

44.scrapy爬取链家网站二手房信息-2

全面采集二手房数据: 网站二手房总数据量为27650条,但有的参数字段会出现一些问题,因为只给返回100页数据,具体查看就需要去细分请求url参数去请求网站数据.我这里大概的获取了一下筛选条件参数,一 ...

python爬虫：利用BeautifulSoup爬取链家深圳二手房首页的详细信息

1.问题描述: 爬取链家深圳二手房的详细信息,并将爬取的数据存储到Excel表 2.思路分析: 发送请求--获取数据--解析数据--存储数据 1.目标网址:https://sz.lianjia.com ...

Python 爬虫入门之爬取妹子图

Python 爬虫入门之爬取妹子图来源:李英杰链接: https://segmentfault.com/a/1190000015798452 听说你写代码没动力?本文就给你动力,爬取妹子图.如果 ...

Scrapy实战篇(一)之爬取链家网成交房源数据(上)

今天,我们就以链家网南京地区为例,来学习爬取链家网的成交房源数据. 这里推荐使用火狐浏览器,并且安装firebug和firepath两款插件,你会发现,这两款插件会给我们后续的数据提取带来很大的方便. ...

python3 爬虫教学之爬取链家二手房(最下面源码) //以更新源码

前言作为一只小白,刚进入Python爬虫领域,今天尝试一下爬取链家的二手房,之前已经爬取了房天下的了,看看链家有什么不同,马上开始. 一.分析观察爬取网站结构这里以广州链家二手房为例:http:/ ...

Python爬虫入门教程 23-100 石家庄链家租房数据抓取

1. 写在前面作为一个活跃在京津冀地区的开发者,要闲着没事就看看石家庄这个国际化大都市的一些数据,这篇博客爬取了链家网的租房信息,爬取到的数据在后面的博客中可以作为一些数据分析的素材. 我们需要爬取 ...

Python 爬虫入门(二)——爬取妹子图

Python 爬虫入门听说你写代码没动力?本文就给你动力,爬取妹子图.如果这也没动力那就没救了. GitHub 地址: https://github.com/injetlee/Python/blob ...

随机推荐

有向无环图的应用—AOV网和拓扑排序

有向无环图:无环的有向图,简称 DAG (Directed Acycline Graph) 图. 一个有向图的生成树是一个有向树,一个非连通有向图的若干强连通分量生成若干有向树,这些有向数形成生成森林 ...

CVE-2014-4113 windows通杀本地提权0day

全部评论 (0)

还没有任何评论哟~

python爬取链家网_python - 爬虫入门练习爬取链家网二手房信息

importrequests frombs4importBeautifulSoup importsqlite3 conn=sqlite3.connecttest.db c=conn.cursor fo...

python爬取链家_python+scrapy爬虫（爬取链家的二手房信息）

之前用过selenium和request爬取数据，但是感觉速度慢，然后看了下scrapy教程，准备用这个框架爬取试一下。 1、目的：通过爬取成都链家的二手房信息，主要包含小区名，小区周边环境，小区楼层...

python爬虫：lxml爬取链家网二手房信息

首先查看下链家网二手房网站（深圳）：链家二手房可以看到如下部分网页截图，我们需要获取的是类似图中红框中二手房的信息话不多说，先把开头的通用代码写下来： importrequests fromlxm...

链家网页爬虫_爬虫实战1-----链家二手房信息爬取

经过一段机器学习之后，发现实在是太枯燥了，为了增添一些趣味性以及熟练爬虫，在之后会不定时的爬取一些网站旨在熟悉网页结构尤其是HTML的元素,ajax存储，json；熟练使用pyspider,scra...

python爬虫爬取链家网房价信息

打开链家网页：https://sh.lianjia.com/zufang/：用F12以页面中元素进行检查 <atarget=blankhref=/zufang/pudong/浦东</a <ahref=...

python爬虫爬取链家二手房信息(xpath)

python爬虫爬取链家二手房信息xpath 需求流程详细代码需求将小区名称、厅室、面积、毛坯还是精装、楼层、建筑年代、板楼还是塔楼、总价和每平方米单价等信息爬取放入字典中流程 1.查看想要...

python爬房源信息_python爬虫获取链家二手房源信息

0X00前言本来之前是准备爬取boss直聘的招聘信息，结果boss的反爬还挺恶心，访问页面还得带上cookie，页面的cookie有效时间也只有一分钟，不然只能访问到等待页面，菜鸡落泪 0X01准备...

python爬虫（xpath）爬取链家网房源信息

importrequests fromlxmlimportetree importtime importrandom classLianjiaSpiderobject: definitself: se...

python爬取链家租房信息_Python BeautifulSoup爬取链家租房信息

coding:utf8 CreatedonThuMay314:15:002018 @author: importurllib importpandasaspd frompandasimportDa...

【爬虫】爬取链家网青城山二手房源信息

一、项目背景本项目是用python爬虫来实现爬取链家网青城山的二手房信息，我们小组是针对于在我们成都东软学院周边的二手房信息做一个数据爬取和建表。我们小组做这个项目的背景是因为在不久的将来，我们大学...

是否确定退出登录?

python爬取链家网_python - 爬虫入门练习 爬取链家网二手房信息

print(k,data_id, '|', title, '|', adress, '|', jage, '|', href)

print("---")

print(dz,fx,dx,cx,zx,dt)

print(info)

print("OK")

import json

file_path = 'info%s.txt'%num

json_data = json.dumps(info_list).encode('utf8')

with open(file_path,'wb') as f:

f.write(json_data)

全部评论 (0)

相关文章推荐

python爬取链家网_python - 爬虫入门练习 爬取链家网二手房信息

python爬取链家_python+scrapy爬虫（爬取链家的二手房信息）

python爬虫：lxml爬取链家网二手房信息

链家网页爬虫_爬虫实战1-----链家二手房信息爬取

python爬虫爬取链家网房价信息

python爬虫爬取链家二手房信息(xpath)

python爬房源信息_python爬虫获取链家二手房源信息

python爬虫（xpath）爬取链家网房源信息

python爬取链家租房信息_Python BeautifulSoup爬取链家租房信息

【爬虫】爬取链家网青城山二手房源信息

python爬取链家网_python - 爬虫入门练习爬取链家网二手房信息

python爬取链家网_python - 爬虫入门练习爬取链家网二手房信息