实战—爬取网站链家租房信息

阅读量：

1.明确目标：拿下该页面的28个租房链接

2.分析租房页面源码

3.导入第三方库

复制代码

    C:\Users\Administrator>pip install requests
    C:\Users\Administrator>pip install bs4
    
    
      
      
    
    AI助手

4.获取页面每个租房信息

复制代码

    #!/usr/bin/python3
    # -*- coding: UTF-8 -*-
    
    import requests
    from bs4 import BeautifulSoup
    
    links_url = 'https://nc.lianjia.com/zufang/honggutan1/rt200600000002rp1/'
    respose = requests.get(links_url)
    # print(respose)       #打印响应码
    # print(respose.text)  #打印页面内容
    
    # 这里的"html.parser"是解析器，取决于代码编写环境
    soup = BeautifulSoup(respose.text, "html.parser")
    # print(soup)  #用BeautifulSoup获取页面内容
    
    #这里的class_是为了与python中的关键字class区分
    links_p = soup.find_all('p', class_='content__list--item--title twoline')
    links = ['https://nc.lianjia.com/zufang' + p.a.get('href') for p in links_p]
    # for循环实现列表中的内容换行输出
    for lin in links:
    print(lin)
    
    
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
    
    AI助手

成功租房获取链接：

复制代码

    D:\software\Python37-32\python.exe D:/code/python/python基础/爬取网站链家租房信息.py
    https://nc.lianjia.com/zufang/zufang/NC2350487531726323712.html
    https://nc.lianjia.com/zufang/zufang/NC2420193010059837440.html
    https://nc.lianjia.com/zufang/zufang/NC2374575006383341568.html
    ...
    
    
      
      
      
      
      
    
    AI助手

以上代码可以封装成如下函数：

复制代码

    links_url = 'https://nc.lianjia.com/zufang/honggutan1/rt200600000002rp1/'
    def get_links(links_url):
    respose = requests.get(links_url)
    soup = BeautifulSoup(respose.text, "html.parser")
    links_p = soup.find_all('p', class_='content__list--item--title twoline')
    links = ['https://nc.lianjia.com/zufang' + p.a.get('href') for p in links_p]
    for lin in links:
        print(lin)
    return links
    get_links(links_url)        
    
    
      
      
      
      
      
      
      
      
      
      
    
    AI助手

5.同理对每个租房链接进行提取信息

复制代码

    house_url = 'https://nc.lianjia.com/zufang/zufang/NC2350487531726323712.html'
    respose = requests.get(house_url)
    soup = BeautifulSoup(respose.text, "html.parser")
    
    
      
      
      
    
    AI助手

注意到这两行代码与已有的封装好的函数内部的逻辑完全一致的情况下，这提示我们应当对这段重复使用的逻辑进行优化处理，并将其封装为一个独立的函数模块。

复制代码

    # 获取页面中的内容
    def get_page(url):
    respose = requests.get(url)
    soup = BeautifulSoup(respose.text, "html.parser")
    return soup
    
    # links_url = 'https://nc.lianjia.com/zufang/honggutan1/rt200600000002rp1/'
    # 获取每一个租房链接
    def get_links(links_url):
    soup = get_page(links_url)
    links_p = soup.find_all('p', class_='content__list--item--title twoline')
    links = ['https://nc.lianjia.com/zufang' + p.a.get('href') for p in links_p]
    for lin in links:
        print(lin)
    return links
    # get_links(links_url)    
    
    
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
    
    AI助手

复制代码

    # 先对一个租房页面提取信息
    house_url = 'https://nc.lianjia.com/zufang/zufang/NC2350487531726323712.html'
    soup = get_page(house_url)
    # 这里的div下的content__aside--title属性取到了价格之外的内容，使用切片取出想要的值
    price = soup.find('div', class_='content__aside--title').text[1:10]
    print(price)
    info = soup.find_all('ul', class_='content__aside__list')[0].text
    print(info)
    
    
      
      
      
      
      
      
      
      
    
    AI助手

执行结果：

复制代码

    D:\software\Python37-32\python.exe D:/code/python/python基础/爬取网站链家租房信息.py
    600元/月
      
    租赁方式：合租
    房屋类型：2室2厅1卫 81㎡
    朝向楼层：南/北 高楼层/29层
    
    
      
      
      
      
      
      
    
    AI助手

由于该网站存反爬机制，效果并不理想：

请阐述具体的步骤如下：搭建数据库架构、数据表结构及相关字段配置。通过Pymysql模块实现与数据库的连接，并即可实现爬取内容的导入至数据库中。

全部评论 (0)

还没有任何评论哟~

实战—爬取网站链家租房信息

1.明确目标：拿下该页面的28个租房链接 2.分析租房页面源码 3.导入第三方库 C:\Users\Administratorpipinstallrequests C:\Users\Administr...

链家网租房信息爬取

我做了一个在链家网上爬取租房信息主要有三个功能：一.爬取租房价格，存入.csv文件，因为这个网站url比较简单，所以我直接写进列表 importrequests importurllib.reque...

python爬取链家租房信息_Python BeautifulSoup爬取链家租房信息

coding:utf8 CreatedonThuMay314:15:002018 @author: importurllib importpandasaspd frompandasimportDa...

爬取链家网站的北京租房信息

本来准备这个暑假好好复习，但学校安排暑期实践，既然学校安排这个，而且我自己也觉得需要提高一下自己的能力，所以静下心来做点事吧。我们要做到项目是分析北京地区的租房的信息分析。我们需要做的是爬取链家网站...

python爬取链家租房信息_爬取链家租房信息数据分析

想到马上就要大四了离毕业也不远了，住学校的日子转瞬即逝，届时可能需要自己寻找新的栖身之处，于是对链家学校附近的租房信息进行爬取并分析，了解租房行情，为以后的租房未雨绸缪。本文通过爬取链家天河区的房源...

Python爬取链家租房信息

Python爬取链家租房信息兴趣点：继续练手，今天以石家庄市开发区为例，爬取所有链家在租房屋信息这种静态网页我已经练了很多了，已经驾轻就熟了目标网站：传送门：<https://sjz.lia...

python爬取链家网实例——scrapy框架爬取-链家网的租房信息

说明：本文适合scrapy框架的入门学习。一、认识scrapy框架开发python爬虫有很多种方式，从程序的复杂程度的角度来说，可以分为：爬虫项目和爬虫文件。 scrapy更适合做爬虫项目，ur...

python 爬取链家网北京租房信息

刚学习了python，中途遇到很多问题，查了很多资料，最关键的就是要善于调试，div信息一定不要找错，下面就是我爬取租房信息的代码和运行结果：链家的房租网站两个导入的包 1.requests用来过...

python爬取链家租房信息_python爬取链家租房之获取房屋的链接和页面的详细信息...

因为期末考试的缘故，本打算一个星期结束的爬虫，拖了很久，不过，也有好处：之前写的时候总是被反爬，这几天复习之余写了些反爬取的pycode下面发出来和大家探讨做了些反爬取的手段随机获取一个heade...

是否确定退出登录?

实战—爬取网站链家租房信息

全部评论 (0)

相关文章推荐

实战—爬取网站链家租房信息

链家网租房信息爬取

python爬取链家租房信息_Python BeautifulSoup爬取链家租房信息

爬取链家网站的北京租房信息

python爬取链家租房信息_爬取链家租房信息数据分析

Python爬取链家租房信息

python爬取链家网实例——scrapy框架爬取-链家网的租房信息

python 爬取链家网北京租房信息

python爬取链家租房信息_python爬取链家租房之获取房屋的链接和页面的详细信息...

Python爬取链家北京租房信息