python爬取某宝商品信息

阅读量：

某平台是知名的电子商务企业，在学习了selenium之后，尝试用该技术收集某宝的商品信息。由于采用了自动化技术进行数据采集，并未设置网页分析环节

复制代码

    from selenium import webdriver
    from selenium.webdriver.common.keys import Keys
    from selenium.webdriver import ActionChains
    import conn
    import time
    import csv
    
    def login(name):
    	'''解决登录和滑块验证问题'''
    driver.get('https://www.taobao.com/')
    driver.maximize_window()
    driver.implicitly_wait(10)
    driver.find_element_by_xpath('//*[@id="q"]').send_keys(name)
    driver.find_element_by_xpath('//*[@id="J_TSearchForm"]/div[1]/button').click()
    driver.find_element_by_xpath('//*[@id="fm-login-id"]').send_keys(conn.TaoUser)
    time.sleep(1)
    driver.find_element_by_xpath('//*[@id="fm-login-password"]').send_keys(conn.TaoPwd)
    time.sleep(1)
    action = ActionChains(driver)
    yzm = driver.find_element_by_xpath('//*[@id="nc_1_n1z"]')
    time.sleep(1)
    action.click_and_hold(yzm).move_by_offset(xoffset=258, yoffset=0)#点击移动验证码
    action.pause(0.8).perform()#使动作链执行
    action.release()
    driver.find_element_by_xpath('//*[@id="login-form"]/div[4]/button').click()
    driver.implicitly_wait(10)
    
    
    def get_info():
    	'''获取一页商品页信息并保存 '''
    #注意使用elements方法提取可迭代的值
    divs = driver.find_elements_by_xpath('//div[@class="items"]/div[@class="item J_MouserOnverReq  "]')
    for div in divs:
        shop_name = div.find_element_by_xpath('.//div[@class="row row-2 title"]/a').text
        store = div.find_element_by_xpath('.//div[@class="shop"]/a').text
        ship_area = div.find_element_by_xpath('.//div[@class="location"]').text
        price = div.find_element_by_xpath('.//div[@class="price g_price g_price-highlight"]/strong').text
        pay_num = div.find_element_by_xpath('.//div[@class="deal-cnt"]').text
        shop_url = div.find_element_by_xpath('.//div[@class="row row-2 title"]/a').get_attribute('href')
        #print(shop_name, store, ship_area, price, pay_num, sep="|")
        with open(r'seleniumDemo\shopinfo.csv', mode='a', newline="") as f:
            csvwrite = csv.writer(f,delimiter=',')
            csvwrite.writerow([shop_name, store, ship_area, price, pay_num, shop_url])
    print('文件保存完成')
    
    def turn_page():
    	'''翻页爬取'''
    all_page = driver.find_element_by_xpath('//div[@class="total"]').text.split(' ')[1]
    page = 1 
    try:
        while page <= int(all_page):
            print(f'=========正在爬取第{page}页信息=========')
            driver.implicitly_wait(10)
            get_info()
            page += 1
            #点击下一页
            driver.find_element_by_xpath('//a[@class="J_Ajax num icon-tag"]').click()
            time.sleep(5)
            
    except Exception as e:
        print(e)
    
    '''
    def get_info():
    	'带有title的csv表格，不过用的时候要把打开文件和写入title放
    	主入口那里'
    #注意使用elements方法提取可迭代的值
    divs = driver.find_elements_by_xpath('//div[@class="items"]/div[@class="item J_MouserOnverReq  "]')
    with open(r'seleniumDemo\shopinfo.csv', mode='w') as f:
        f.write(f"{'商品名称'},{'价格'},{'付款人数'},{'店铺名称'},{'发货地址'},{'链接'}\n")
        for div in divs:
            shop_name = div.find_element_by_xpath('.//div[@class="row row-2 title"]/a').text
            store = div.find_element_by_xpath('.//div[@class="shop"]/a').text
            ship_area = div.find_element_by_xpath('.//div[@class="location"]').text
            price = div.find_element_by_xpath('.//div[@class="price g_price g_price-highlight"]/strong').text
            pay_num = div.find_element_by_xpath('.//div[@class="deal-cnt"]').text
            shop_url = div.find_element_by_xpath('.//div[@class="row row-2 title"]/a').get_attribute('href')
            #print(shop_name, store, ship_area, price, pay_num, sep="|")
            f.write(f"{shop_name},{price},{pay_num},{store},{ship_area},{shop_url}\n")
    print('文件保存完成')
    '''
    
    if __name__ == '__main__':
    	'''程序主入口，感觉用selenium爬太慢了 '''
    choice = input('输入你想爬取的商品:')
    driver = webdriver.Chrome(r'C:\Users\IT\Desktop\chromedriver.exe')
    login(choice)
    turn_page()
    print('所有商品爬取完成。。。。')

全部评论 (0)

还没有任何评论哟~

python爬取某宝商品信息

某宝是著名的电商平台，刚好也学到selenium，就试试用selenium爬一下某宝的商品信息。因为使用自动化工具爬取的，也就没有网页分析的步骤。 fromseleniumimportwebdriv...

python爬取淘宝商品信息

今天为大家介绍一个Python利用selenium打开浏览器的方式来爬取淘宝商品的信息,下面就来看看,关于selenium的知识点,是如何做到控制浏览器获取网站的信息导入第三方库关键词搜索抓取索...

python 爬取淘宝商品信息

!/usr/bin/python coding:utf8 淘宝商品比价 importrequests importre importpymysql fromtimeimportstrftime,gmt...

python 爬取淘宝商品信息

把爬取的信息写入csv文件 importrequests importjson importcsv globalauctionsdistinct auctionsdistinct=[] defgeta...

2.4 playwright 实战-爬取某宝商品信息

第四节：电商信息爬取项目实战项目课程目标学习如何通过playwright完成某宝商品信息爬取课程内容编码实现 importjson fromplaywright.syncapiimportsy...

Python爬虫爬取淘宝商品信息

selenium库可以驱动浏览器自动进行页面的访问（代码参考《Python3网络爬虫开发实战》崔庆才著） 1.驱动浏览器访问淘宝页面 browser=webdriver.Chrome wait=Web...

python爬淘宝商品销量信息_python爬取淘宝商品销量信息

python爬取淘宝商品销量的程序，运行程序，输入想要爬取的商品关键词，在代码中的‘'可以进一步约束商品的属性，比如某某作者的书籍，可以在处输入作者名字，以及时期等等。

爬取淘宝商品信息

目标站点分析：爬取网页一般优先选择手机版，通过在google浏览器启动快捷方式后面添加–useragent=’Android’即可模拟手机. 搜索关键字python即可看到python相关，通过ne...

爬取淘宝商品信息

我们先来解决一下前置知识，本爬虫会用到以下库 1.requests是一个很实用Python的一个很实用的HTTP客户端，可以满足如今爬虫的需要 2.json用于数据的处理 3.csv用于数据的储存分...

python爬淘宝商品销量信息_Python爬取淘宝商品价格销量信息

用到了requests库和re库 importrequests importre lis=[] https://s.taobao.com/search?q=荣耀v20&imgfile=&commend...

是否确定退出登录?

python爬取某宝商品信息

全部评论 (0)

相关文章推荐

python爬取某宝商品信息

python爬取淘宝商品信息

python 爬取淘宝商品信息

python 爬取淘宝商品信息

2.4 playwright 实战-爬取某宝商品信息

Python爬虫爬取淘宝商品信息

python爬淘宝商品销量信息_python爬取淘宝商品销量信息

爬取淘宝商品信息

爬取淘宝商品信息

python爬淘宝商品销量信息_Python爬取淘宝商品价格销量信息