使用python抓取落网期刊图片

阅读量：

使用python抓取落网期刊图片

尽管过去两年多以来一直使用Python开发。

复制代码

    #coding:gbk
    import os
    
    import bs4
    import requests
    
    
    # 保存期刊图片的路径，你可以换成你自己的
    base_dir = r"F:\落网电台"
    
    def main():
    start_url = 'http://www.luoo.net/music/'
    #os.makedirs('落网电台')
    parse_detail(start_url)
    
    def parse_detail(req_url):
    '''
    # 解析包含期刊图片的页面
    '''
    resp = requests.get(req_url)
    resp.raise_for_status()
    resp.encoding = 'utf-8'
    
    soup = bs4.BeautifulSoup(resp.text, 'lxml')
    vol_items = soup.select('div.vol-list > div > a')
    print('当前页面期刊div.item节点数目:[%d]'%len(vol_items))
    if not (vol_items and len(vol_items)):
        print('当前没有需要下载的期刊image..')
        return True
    for item in vol_items:
        print type(item), item.name, item.attrs
        vol_title = item['title']
        vol_num = item['href'].split('/')[-1]
    
        for child in item.children:
            if isinstance(child, bs4.element.Tag) and child.name == 'img':
                image_url = child['src']
                print("当前图片的链接:[%s]"%image_url)
                download_img(image_url, vol_num, vol_title)
    
    # 开始处理翻页
    page_items = soup.select('div.paginator > a.next')
    if page_items and len(page_items):
        next_page_url = page_items[0]['href']
        print("下一页链接:[%s]"%next_page_url)
        parse_detail(next_page_url)
    
    
    
    def download_img(vol_img_url, vol_num, vol_title):
    '''
    # 保存期刊图片
    '''
    print('开始下载:[%s]'%vol_img_url)
    resp = requests.get(vol_img_url)
    resp.raise_for_status() # 下载出现问题，立即抛出异常
    
    try:
        print vol_title
        vol_title = vol_title.encode('gbk')
    except UnicodeEncodeError:
        vol_title = vol_title.encode('utf-8')
    
    image_name = 'Vol.{0} {1}.jpg'.format(vol_num, vol_title) 
    print image_name
    
    image_path = os.path.join(base_dir, image_name)
    # 避免重复下载
    if os.path.exists(image_path):
        return 
    
    image_handle = None
    try:
        image_handle = open(image_path, 'wb')
        for chunk in resp.iter_content(10000):
            image_handle.write(chunk)
    except IOError:
        return
    finally:
        if image_handle:
            image_handle.close()  
    
    if __name__ == '__main__':
    main()

注
1. 下面是运行脚本后，在路径basedir下生成的期刊图片：

2. 运行此脚本，需要安装依赖库：pip install bs4

全部评论 (0)

还没有任何评论哟~

使用python抓取落网期刊图片

使用python抓取落网期刊图片虽然使用python开发也将近两年了，但工作中使用python更多处理业务逻辑，数据加工等，难免有些枯燥、乏味。一直听闻python在web数据爬取、数据分析上有无可...

使用python来批量抓取网站图片

今天无意看美女无意溜达到一个网站，发现妹子多多，但是可恨一个page只显示一张或两张图片，家里WiFi也难用，于是发挥程序猿的本色，写个小脚本，把图片扒下来再看，类似功能已有不少大师实现了，但本着学习...

用python抓取网页的图片

python抓取数据想要做数据分析师就要知道如何将网页上的数据获取。比如我要去获取http://pic.netbian.com/4kdongman/index2.html这个网页里所有的图片。 1...

利用python批量爬取网页图片_使用python来批量抓取网站图片

如何使用 Python 抓取 Google 图片

Google图片是网络上最难抓取数据的网站之一。虽然该网站没有明确拦截抓取工具，但确实会让您在获取数据时费尽周折……如果想要获取数据，必须付出真正的努力！相比常规HTML抓取，Google图片的抓取...

python 利用requests库抓取网站图片

截图放在下方：我们来看下我们要的图片都在哪框起来这些图就是我要的，数量多的不得了，看来这个网站积累了很久了，现在我们要用5分钟时间来拿到所有图片接下来让我们看下源代码来解析一下这些图片的地址吧。

Python爬虫抓取网页图片

本文通过python来实现这样一个简单的爬虫功能，把我们想要的图片爬取到本地。下面就看看如何使用python来实现这样一个功能。 coding:utf8 importurllib importre ...

【Python】煎蛋网XXOO图片抓取

今天写一个爬虫爱好者特别喜欢的网站煎蛋网http://jandan.net/ooxx，这个网站其实还是有点意思的，网站很多人写了N多的教程了，各种方式的都有，当然网站本身在爬虫爱好者的不断进攻下，也在...

Python数据抓取（抓图片）

看到oschina上抓图片挺流行的，最近又看到一个抓××湾电影的小站一下火了，自己就试着练习一下python抓取。 importre importurllib Downloadpictureandsa...

python 爬虫抓取网站img图片

fromgetHtmlimportgetHtmlWinthIp fromgetHtmlimportgetHtml frombs4importBeautifulSoup fromurllibimport...

是否确定退出登录?

使用python抓取落网期刊图片