Advertisement

中国部分大学排名爬虫

阅读量:

目标网站:http://www.zuihaodaxue.com/zuihaodaxuepaiming2016.html

目的:爬取目标网站上中国大学的排名

代码如下:

复制代码
     1import#引入requests库 2fromimport BeautifulSoup
     3import#引入bs4库 4def#获得网页内容的函数 5try:
     6#得到网页内容 7#来产生异常信息,在方法内部判断r.status_code是否等于200,不需要增加额外的if语句,该语句便于利用try-except进行异常处理 8#修改编码 9return#返回文本类10except:
    11return""1213def#将页面放到一个列表中的函数14"html.parser"#煲汤....15forin'tbody'#遍历查找tbody标签16if#类型判断,如果不是tag类型,将被过滤17'td'#将td标签存为一个列表类型tds18#增加对应字段192021def#输出打印函数,格式化输出22print"{:^10}\t{:^6}\t{:^10}""排名""学校名称""总分"#打印表头23forin#采用循环实现24 ulist[i]
    25print"{:^10}\t{:^6}\t{:^10}"]))
    2627def#储存到txt文件,E盘下自动生成中国大学排名的txt文件28'E:中国大学排名.txt''a''utf-8') as f:
    29forin range(num):
    30 ulist[i]
    31"{:^10}\t{:^6}\t{:^10}"]))
    32'\n')
    33    f.close()
    343536def#主函数37#列表38'http://www.zuihaodaxue.com/zuihaodaxuepaiming2016.html'#给定链接39getHTMLText(url)
    40   fillUnivList(uinfo,html)
    41)
    42)
    43

结果如下:

第一次写的爬虫,留作纪念

全部评论 (0)

还没有任何评论哟~