Advertisement

链家二手房爬虫

阅读量:
复制代码
    最近在看模拟登陆,找链家二手房爬取来练手,因为技术有限,有些并行化,复杂度,性能方面等不能兼顾,
    学习学习学习。
复制代码
    下面贴出源码,有志同道合的高手可以帮忙改进或者提些意见。
复制代码
    #--*-- coding:utf-8 --*--
    
    import import import from import from import #使用随机header,模拟人类
    'User-Agent''ua.random'#使用随机header
    #建立空列表放房屋信息
    for in range1,101#爬取页数
    'http://sh.lianjia.com/ershoufang/d/'str,headers#爬取拼接域名
    for in range0,30, 'html.parser''.clear a'04'href'#选中class=clear下的a标签里的第J个元素的href子域名内容
        ,'html.parser''.houseInfo'0'<div.*?mainInfo">(.*?)</div>'
        '房子格局'''liststr'.houseInfo'0'<div.*subInfo">(.*?)</div>'
        '楼层信息'''liststr'.houseInfo div'4'<div.*?mainInfo".*?>(.*?)</div>'
        '朝向'''liststr'.houseInfo div'5'<div.*?subInfo">(.*?)</div>'
        '装修情况'''liststr'.houseInfo div'7'<div.*?mainInfo">(.*?)</div>'
        '房子面积'''liststr'.price'0'<span.*?total">(.*?)</span>'
        '房子总价(单位/万)'''liststr'.price'0'<span.*?unitPriceValue">(.*?)<i>'
        '单价(元/平米)'''liststr'.houseInfo div'8'<div.*?subInfo">(.*?)</div>'
        '建楼年份'''liststr'.aroundInfo div'0'<a.*_blank">(.*?)</a>'
        '小区名称'''liststr'.aroundInfo div'1'<a.*?>(.*?)</a>'
        '所在区域'''liststr#print(info)
        '链家_二手房.xlsx'

全部评论 (0)

还没有任何评论哟~