动态网页的信息爬取（Python+Selenium）

阅读量：

文章目录

- 一、Selenium
- 二、自动化测试
- 三、爬取京东网站上的华为手机信息

一、Selenium

1.1 简介
Selenium是一种用于网页自动化的测试工具。最初是为了实现网站自动化测试功能而设计的一种工具类软件。类似于我们在游戏中使用的快捷键辅助工具,Selenium能够根据预设指令自动执行各项操作。值得注意的是,Selenium可以直接运行于浏览器环境中，并且能够支持所有主流的主要浏览器（包括PhantomJS这类无界面的浏览器）。

Selenium 能够按照指令自动生成并展示网页内容，并能够收集所需的信息；此外还可以实现页面截屏的功能；同时也可以检测网站上的特定操作是否执行。

Selenium本身不具备内置浏览器功能，并不能直接执行通用的网页浏览操作。然而，在某些情况下我们需要将其嵌入到代码环境中以便运行。因此，我们可以选择PhantomJS等工具来替代传统的浏览器软件。
1.2 下载
可以通过pip命令安装selenium库或者使用conda安装该库。需要注意的是，在实际应用中这通常会涉及下载并配置相应的驱动程序以支持其功能。

二、自动化测试

将包含头文件的部分加载至网页中，并将其添加至系统环境变量中。但经过尝试发现直接加载并没有帮助。而为了避免这样的问题，在此采取了固定路径的方式。

复制代码

    from selenium import webdriver
    driver=webdriver.Chrome('D:/下载/chromedriver_win32/chromedriver.exe')
    #进入网页
    driver.get("https://www.baidu.com/")

在Web浏览器环境中调用开发者工具以获取代码内容，并通过以下步骤操作：首先定位搜索框元素并获取其ID属性；接着右键点击该元素并选择检查选项；最后即可获取该元素对应的ID。

使用id来找到这个元素

复制代码

    from selenium import webdriver
    
    # 打开一个Chrome浏览器，executable_path是Chrome浏览器驱动的路径
    driver = webdriver.Chrome(executable_path=r'D:/下载/chromedriver_win32/chromedriver.exe')
    driver.get("https://www.baidu.com/")
    p_input=driver.find_element_by_id('kw')
    print(p_input)
    print(p_input.location)
    print(p_input.size)
    print(p_input.send_keys('星球'))
    print(p_input.text)

同样右键百度一下，点击检查，查看它的id

复制代码

    p_btn = driver.find_element_by_id('su')
    p_btn.click()

三、爬取京东网站上的华为手机信息

查看网站首页，输入框id和搜索按钮

右击手机，发现信息都在J_goodsList下面

查看每一部手机及li标签下具体内容

可以看到价格p-price之类的
代码：

复制代码

    import time
    import csv
    from bs4 import BeautifulSoup as bs
    from selenium import webdriver
    from selenium.webdriver.common.keys import Keys
    import time
    from lxml import etree
    driver = webdriver.Chrome(executable_path=r'D:/下载/chromedriver_win32/chromedriver.exe')
    # 京东所在网站
    driver.get("https://www.jd.com/")
    
    p_input = driver.find_element_by_id('key')# 找到输入框输入
    p_input.send_keys('p40')  # 输入需要查找的关键字
    time.sleep(1)
    
    button=driver.find_element_by_class_name("button").click()# 点击搜素按钮
    time.sleep(1)
    all_book_info = []
    num=200
    head=['手机名', '价格']
    #csv文件的路径和名字
    path='D:/下载/chromedriver_win32/手机.csv'
    def write_csv(head,all_book_info,path):
    with open(path, 'w', newline='',encoding='utf-8') as file:
        fileWriter =csv.writer(file)
        fileWriter.writerow(head)
        fileWriter.writerows(all_book_info) 
    # 爬取一页
    def get_onePage_info(web,num):
    driver.execute_script('window.scrollTo(0, document.body.scrollHeight);')
    time.sleep(2)
    page_text =driver.page_source
    # with open('3-.html', 'w', encoding='utf-8')as fp:
    #     fp.write(page_text)
    # 进行解析
    tree = etree.HTML(page_text)
    li_list = tree.xpath('//li[contains(@class,"gl-item")]')
    for li in li_list:
        num=num-1
        book_infos = []
        book_name = ''.join(li.xpath('.//div[@class="p-name p-name-type-2"]/a/em/text()'))     # 书名
        book_infos.append(book_name)
        price = '￥' + li.xpath('.//div[@class="p-price"]/strong/i/text()')[0]   # 价格
        book_infos.append(price)
      
        # if len(store_span) > 0:
        #     store = store_span[0]
        # else:
        #     store = '无'
        
        all_book_info.append(book_infos)
        if num==0:
            break
    return num
    
    while num!=0:
    num=get_onePage_info(driver,num)
    driver.find_element_by_class_name('pn-next').click()  # 点击下一页
    time.sleep(2)
    write_csv(head,all_book_info,path)
    driver.close()

全部评论 (0)

还没有任何评论哟~

动态网页的信息爬取（Python+Selenium）

文章目录一、Selenium 1.1简介 1.2配置环境二、自动填充百度网页的查询关键字并完成自动搜索三、爬取一个动态网页的数据 3.1查看元素 3.2代码四、爬取京东网站上的感兴趣书籍信息 ...

Python+Selenium动态网页的信息爬取

Python+Selenium动态网页的信息爬取一、Selenium （一）Selenium简介二、自动填充百度网页的查询关键字并完成自动搜索三、爬取一个动态网页的数据（一）网站链接（二）分...

动态网页的信息爬取（Python+Selenium）

文章目录一、Selenium 二、自动化测试三、爬取京东网站上的华为手机信息一、Selenium 1.1简介 Selenium是一个Web的自动化测试工具，最初是为网站自动化测试而开发的，类型像...

Python + selenium 爬取网页信息

最近需要从网页上找一些有用的信息，就简单用python爬了一下。网上方法有很多，request，BeautifulSoup，selenium，Scrapy等等。

Python动态网页的信息爬取

目录一、Selenium自动化测试框架二、对网页进行自动化测试三、爬取指定网页的名言 1.分析网页 2.代码四、爬取京东网站上的感兴趣书籍信息 1.分析网页 2.代码五、总结参考资料一、...

Python动态爬取网页信息

目录背景解析什么是动态加载动态加载数据获取动态数据解析实战总结背景在日常的爬虫练习时有些网站的数据信息是静态的，也就是说我们通过浏览器窗口中的“检查源代码”窗口就可以获取到（图11）...

动态网页的信息爬取

一、Selenium （一）Selenium简介 Selenium是一个Web的自动化测试工具，最初是为网站自动化测试而开发的，类型像我们玩游戏用的按键精灵，可以按指定的命令自动操作，不同是Selen...

动态网页的信息爬取

文章目录一、在Anaconda的虚拟环境下安装selenium 1.selenium 2.驱动下载 3.路径添加二、自动打开百度并填充、搜索 1.获取百度页面 2.填充搜索框 3.模拟点击 4.整...

动态网页信息爬取

第一篇博客，以爬虫开头，虽然以前也学过爬虫，但是时间比较久，现在又重新捡起，今天谈谈动态网页信息的爬取。首先介绍一下爬取网页信息的基本思路：1.使用爬虫请求网页，获取网页的源代码2.解析源代码，在源...

使用selenium和python，实现静态、多级、动态网页的信息爬取_python+selenium+edge爬取数据

前言其中的过程适用于静态网页（豆瓣电影信息、哔哩哔哩评论区等）、动态页面（百度图片滚轮触发页面更新、下拉框触发页面更新等url不变但通过鼠标互动，致使信息更新等场景）的信息爬取。基本适用于所有网...

是否确定退出登录?

动态网页的信息爬取（Python+Selenium）

文章目录

一、Selenium

二、自动化测试

三、爬取京东网站上的华为手机信息

全部评论 (0)

相关文章推荐

动态网页的信息爬取（Python+Selenium）

Python+Selenium动态网页的信息爬取

动态网页的信息爬取（Python+Selenium）

Python + selenium 爬取网页信息

Python动态网页的信息爬取

Python动态爬取网页信息

动态网页的信息爬取

动态网页的信息爬取

动态网页信息爬取

使用selenium和python，实现静态、多级、动态网页的信息爬取_python+selenium+edge爬取数据