爬取北京链家二手房数据

阅读量：

利用python爬取了北京链家主页的二手房数据，爬取时间为2020年1月8日。由于链家只显示了100页、每页30条，因此只能爬取3000条数据。

后续将爬取各区的小区名，对每个小区的在售二手房数据进行收集，这样能获得更多数据。

以下为程序代码，其最终生成houseinfo.csv文件，包含3000条在售二手房的各类数据。

复制代码

 # -*- coding: utf-8 -*-

    
 # 爬取链家二手房数据
    
  
    
 from bs4 import BeautifulSoup
    
 import requests
    
 import pandas as pd
    
 import re
    
  
    
 def get_urls(n):
    
     urllist=[]
    
     for i in range(n):
    
     url='https://bj.lianjia.com/ershoufang/pg'+str(i+1)
    
     urllist.append(url)
    
     return urllist
    
  
    
 def get_info(url):
    
     headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
    
                          'Chrome/63.0.3239.132 Safari/537.36'}
    
     response = requests.get(url=url, headers=headers)   #获取网页编码数据
    
     content = response.content.decode() #将数据解码
    
     soup = BeautifulSoup(content, features='lxml')  #用lxml方式解析
    
     infos = soup.find_all('div', {'class': 'info clear'})   #找到div标签的，class值为info clear的元素
    
     result = {}
    
     # 设置DataFrame的列名，为后续添加字典数据做准备，不设置列名，字典无法直接添加
    
     df=pd.DataFrame(columns=('total_price','unit_price','roomtype','height','direction','decorate','area','age'
    
                          ,'garden','district','id'))
    
     for info in infos:
    
     url=info.find('a').get('href')  #用get()方法获取<a>标签中的href属性，get方法可实现对标签中特定属性的获取
    
     doc=requests.get(url=url,headers=headers)
    
     decontent=doc.content.decode()
    
     soups=BeautifulSoup(decontent,features='lxml')
    
     #获取房屋名、总价和单价
    
     #用select方法找出括号中对应的类型名，括号中用.+单词来表示class类型名
    
     result['total_price']=soups.select('.total')[0].text+'万'
    
     result['unit_price']=soups.select('.unitPriceValue')[0].text
    
     #获取房屋信息，如房型、层高、朝向、装修情况、面积、楼龄
    
     result['roomtype']=soups.select('.mainInfo')[0].text
    
     result['height']=soups.select('.subInfo')[0].text
    
     result['direction']=soups.select('.mainInfo')[1].text
    
     result['decorate']=soups.select('.subInfo')[1].text
    
     result['area']=soups.select('.mainInfo')[2].text
    
     result['age']=re.sub("\D","",soups.select('.subInfo')[2].text)
    
     #获取房源所在小区、地区、环线等信息
    
     result['garden']=soups.select('.info')[0].text
    
     result['district']=soups.select('.info a')[0].text
    
     #获取房源编号
    
     result['id']=re.sub("\D","",soups.select('.houseRecord')[0].text)   #通过正则方式把字符串中的数字提取出来
    
     # 用append方法向DataFrame中添加字典数据，注意在未设置DataFrame列名的情况下不能直接添加字典数据，会报错
    
     df=df.append(result,ignore_index=True)
    
     return df
    
  
    
 def write_data(urls):
    
     dflist=[]
    
     for url in urls:
    
     dflist.append(get_info(url))    #生成由DataFrame组成的列表
    
     result=pd.concat(dflist)    #用concat方法将列表中的DataFrame元素组合起来成为一个大DataFrame
    
     result=result.reset_index(drop=True)
    
     result.to_csv('houseinfo.csv')  #将DataFrame数据写入CSV文件中
    
  
    
 urllist=get_urls(100)
    
 write_data(urllist)
    
 print('success')

全部评论 (0)

还没有任何评论哟~

爬取北京链家二手房数据

利用python爬取了北京链家主页的二手房数据，爬取时间为2020年1月8日。由于链家只显示了100页、每页30条，因此只能爬取3000条数据。后续将爬取各区的小区名，对每个小区的在售二手房数据进行...

python爬取链家_Python爬取链家北京二手房数据

今天分享一下前段时间抓取链家上北京二手房数据的项目。本次分享分为两部分，第一部分介绍如何使用scrapy抓取二手房数据，第二部分我将抓下来的数据进行了一些简单的分析和可视化。

爬取北京链家二手房（requests和selenium）

从网页源码中可以看出这是静态网页，可以直接从源代码里拿数据，先用requests，在用BeautifulSoup解析，最后通过查找获取数据 importrequests frombs4importBe...

python爬取链家北京二手房信息（BeautifulSoup）

2022.3.21更新：本博客当时写的时候链家网页中一些属性或需要的信息名称都与参考博客不同，网站中的结构等会经常变化，因此如果直接使用本博客代码可能会导致采集不到需要信息，csv文件为空的情况，希望...

爬取链家二手房数据

爬取链家二手房数据.md 1.介绍项目 2.分析网站结构 3.说明技术选择 4.excel表格构建字段 1\.介绍项目利用python爬取链家网二手房数据 1.包括标题，位置，布局，总价，均价 2实...

链家北京二手房交易数据分析

链家北京二手房交易数据分析项目背景：基于之前对机器学习，自然语言处理相关内容的学习，并在kaggle上尝试了泰坦尼克号生还者预测，以及WordsMeetsBagsofPopcorn两个项目的研究，...

爬取北京二手房数据信息（python）

数据爬取爬取北京二手房数据信息python代码： coding:utf8 fromrequestsimportget frombs4importBeautifulSoupasbs fromtqdmi...

Python爬取链家北京租房信息

刚学习了python，中途遇到很多问题，查了很多资料，最关键的就是要善于调试，div信息一定不要找错，下面就是我爬取租房信息的代码和运行结果：链家的房租网站两个导入的包 1.requests用来过...

北京二手房信息爬取

对北京二手房信息进行爬取，包括单线程和多线程。一单线程 importrequests frombs4importBeautifulSoup m1=[] m2=[] m3=[] foriinrange...

是否确定退出登录?

爬取北京链家二手房数据

全部评论 (0)

相关文章推荐

爬取北京链家二手房数据

python爬取链家_Python爬取链家北京二手房数据

爬取北京链家二手房（requests和selenium）

python爬取链家北京二手房信息（BeautifulSoup）

爬取链家二手房数据

链家北京二手房交易数据分析

爬取北京二手房数据信息（python）

Python爬取链家北京租房信息

北京二手房信息爬取

python 爬取链家网北京租房信息