北京安居客二手房信息爬取

阅读量：

为了实现高效的数据获取需求而引入requests库（数量增加到30%以上）。
从Lxml库中导入etree模块（并将其简写为et）。
# 导入时间库以控制程序执行节奏
从Selenium库中导入WebDriver类（并以简写形式引用）。
导入Pandas数据分析库（并以简写形式引用pd）（数量增加到50%）。

建议将 chromedriver 放置于 Chrome\Application 目录下

chrome_driver = r"C:\Program Files (x86)\Google\Chrome\Application\chromedriver_win32\chromedriver.exe"

chrome_driver = “C:\Program Files (x86)\Google\Chrome\Application\chromedriver_win32\chromedriver.exe”

driver被配置为一个使用webdriver Chrome实例的类实例，并且其executable_path参数设置为指定的路径参数。
request_url等于定义的位置信息链接。

html.render()
html = etree.HTML(html)
#去除空白和换行\n
def format_str(str):
return str.strip().replace('\n', '')

房屋数据集被构造为一个包含属性名称、详细信息、地址和价格的DataFrame对象。
依次遍历从1到3的每个整数i。
构建相应的URL地址。

复制代码

    driver.get(url)
    
    html = driver.find_element_by_xpath("//*").get_attribute("outerHTML")
    
    
    soup = BeautifulSoup(html, "html.parser", from_encoding="utf-8")
    house_list = soup.find_all("li", class_="list-item")
    
    for house in house_list:
    temp = {}
     #提取房源信息
    name = house.find("div", class_="house-title").a.text.strip()
    details = house.find("div", class_="details-item").text.strip()
    address = house.find("span", class_="comm-address").text.strip()
    price = house.find("span", class_="price-det").text.strip()
    # print("name:{} detai:{} address:{} price:{}".format(name, details, address, price))
    
    temp["name"] = format_str(name)
    temp["details"] = format_str(details)
    temp["address"] = format_str(address)
    temp["price"]  = format_str(price)
    houses = houses.append(temp, ignore_index=True)
    
    
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
    
    AI写代码

houses.use_to_csv().generate_csv('beijing.csv', index=False, encoding='utf_8_sig')

全部评论 (0)

还没有任何评论哟~

北京安居客二手房信息爬取

importrequests fromlxmlimportetree importtime fromseleniumimportwebdriver importpandasaspd frombs4im...

北京二手房信息爬取

对北京二手房信息进行爬取，包括单线程和多线程。一单线程 importrequests frombs4importBeautifulSoup m1=[] m2=[] m3=[] foriinrange...

实战项目一、安居客(北京) 二手房抓取房源信息

一、首先明确爬取的数据为安居客（北京）的二手房源的数据信息，主要有房源链接地址，房源价格，房源单价，房源规模，房源大小，房源建造年份，房源地址。 https://beijing.anjuke.com/...

bs4+phantomjs爬取安居客二手房信息

bs4+phantomjs爬取安居客二手房信息这是我的第一篇博客，希望通过养成写博客的习惯来督促自己学习。开发环境以及需要安装的模块 \Python3.6 \requestspipinstallr...

爬虫项目--爬取安居客二手房信息

爬虫实战（爬取安居客二手房信息成都天府新区）环境：python3.6pycharmbs4库解析方式：bs4 需求：爬取二手房信息字段（titile,housetype,buildtime,area...

爬取北京二手房数据信息（python）

数据爬取爬取北京二手房数据信息python代码： coding:utf8 fromrequestsimportget frombs4importBeautifulSoupasbs fromtqdmi...

爬虫（12）-爬虫爬取安居客二手房和新房信息

文章目录 1.页面分析 2.代码 3.结果展示本文主要讲解爬取安居客买房类别中的二手房和新房，将提取的信息存储在记事本中，也可以转存CSV格式或者MongoDB中。网站HTML信息提取比较简单，没...

菜鸟爬虫——获取安居客二手房信息

以安居客二手房为例前言了解爬虫爬虫目录结构爬虫主体代码 items.py 反反爬虫策略运行爬虫前言因为需要一些二手房数据，菜鸟开启了爬虫之路！不过需要注意的是，在爬取数据时，要遵守《中华...

python爬取链家北京二手房信息（BeautifulSoup）

2022.3.21更新：本博客当时写的时候链家网页中一些属性或需要的信息名称都与参考博客不同，网站中的结构等会经常变化，因此如果直接使用本博客代码可能会导致采集不到需要信息，csv文件为空的情况，希望...

python爬取贝壳找房之北京二手房源信息

所用库 requests xpath解析库 multiprocessing多进程 pandas库用于保存csv文件实战背景本文首发于：python爬取贝壳找房之北京二手房源信息主要是为了做北京二...

是否确定退出登录?

北京安居客二手房信息爬取

建议将 chromedriver 放置于 Chrome\Application 目录下

chrome_driver = r"C:\Program Files (x86)\Google\Chrome\Application\chromedriver_win32\chromedriver.exe"

全部评论 (0)

相关文章推荐

北京安居客二手房信息爬取

北京二手房信息爬取

实战项目一、安居客(北京) 二手房抓取房源信息

bs4+phantomjs爬取安居客二手房信息

爬虫项目--爬取安居客二手房信息

爬取北京二手房数据信息（python）

爬虫（12）-爬虫爬取安居客二手房和新房信息

菜鸟爬虫——获取安居客二手房信息

python爬取链家北京二手房信息（BeautifulSoup）

python爬取贝壳找房之北京二手房源信息