链家二手房爬虫
发布时间
阅读量:
阅读量
最近在看模拟登陆,找链家二手房爬取来练手,因为技术有限,有些并行化,复杂度,性能方面等不能兼顾,
学习学习学习。
下面贴出源码,有志同道合的高手可以帮忙改进或者提些意见。
#--*-- coding:utf-8 --*--
import import import from import from import #使用随机header,模拟人类
'User-Agent''ua.random'#使用随机header
#建立空列表放房屋信息
for in range1,101#爬取页数
'http://sh.lianjia.com/ershoufang/d/'str,headers#爬取拼接域名
for in range0,30, 'html.parser''.clear a'04'href'#选中class=clear下的a标签里的第J个元素的href子域名内容
,'html.parser''.houseInfo'0'<div.*?mainInfo">(.*?)</div>'
'房子格局'''liststr'.houseInfo'0'<div.*subInfo">(.*?)</div>'
'楼层信息'''liststr'.houseInfo div'4'<div.*?mainInfo".*?>(.*?)</div>'
'朝向'''liststr'.houseInfo div'5'<div.*?subInfo">(.*?)</div>'
'装修情况'''liststr'.houseInfo div'7'<div.*?mainInfo">(.*?)</div>'
'房子面积'''liststr'.price'0'<span.*?total">(.*?)</span>'
'房子总价(单位/万)'''liststr'.price'0'<span.*?unitPriceValue">(.*?)<i>'
'单价(元/平米)'''liststr'.houseInfo div'8'<div.*?subInfo">(.*?)</div>'
'建楼年份'''liststr'.aroundInfo div'0'<a.*_blank">(.*?)</a>'
'小区名称'''liststr'.aroundInfo div'1'<a.*?>(.*?)</a>'
'所在区域'''liststr#print(info)
'链家_二手房.xlsx'
全部评论 (0)
还没有任何评论哟~
