Advertisement

第一章-Python 数据可视化与 matplotlib

阅读量:

数据可视化是通过图形化的手段将复杂的数据转化为直观易懂的图表,帮助用户发现数据中的规律和特征。学习目标包括了解数据可视化的基本概念、掌握常见的图表类型(如折线图、柱形图、饼图等)及其应用场景,以及熟悉Python中matplotlib等工具的使用。任务强调数据可视化在数据分析中的重要性,涵盖数据展示、分析、决策支持和信息沟通等方面。通过学习,读者可以掌握从数据收集到可视化展示的完整流程,并利用这些技能提升数据分析效率和效果。

学习目标

1.1 数据可视化概述

无论原始数据被映射为哪种图形数据,最终要达到的目的只有一个——准确、高效、全

面地传递信息,进而建立起数据间的关系,使人们发现数据间的规律和特征,并挖掘出有价

值的信息,从而提高数据沟通的效率。换言之,数据可视化能实现让数据说话的目的。

为了让读者直观地看出文字数据与图形数据之间的差异,下面通过一个 KPI (Key

Performance Indicator,关键绩效指标)报告的示例进行说明。假设某公司员工在整理全年

KPI 报告时准备了表格和图形两种形式的数据,分别如图 1-2 和图 1-3 所示。

在图 1-2 中,表格列出了各季度的实际值、目标值和差异值,为公司领导提供了快速了解具体数值的便利。然而,该图表未能直观展示各季度之间的比较情况。图 1-3 则通过矩形条图的形式进行了可视化,其中每个矩形条的高度表示各季度实际值的大小,上方标注了具体数值,下方则标注了季度或年累计信息;虚线位置对应各季度目标值的水平位置;矩形条的颜色区分了完成目标与否的情况:完成目标的矩形条以蓝色填充,未完成的则以红色填充。由此可见,Q3的矩形条为红色,表明该季度未完成工作目标;而Q2的矩形条不仅超出虚线,且距离虚线最远,说明该季度的工作完成度相对最佳。通过图形,公司领导能够迅速把握各季度的状况,从而为制定下一年度的工作计划提供科学依据。数据可视化作为数据分析的重要环节,不仅有助于挖掘数据的潜在价值,更能推动数据分析在更广领域的应用。随着数据可视化平台功能的拓展、表现形式的创新以及实时动态效果和用户交互功能的完善,数据可视化的内涵也在不断扩展,其应用前景将更加广阔。1.1.2 常见的数据可视化方式 我们通常所说的数据显示化,特指狭义的数据可视化,即通过图表形式呈现数据,广泛应用于PPT、报表、新闻报道等场景。图表作为数据可视化的基础形式,以图形符号为命名,例如使用圆形符号表示的饼图、使用线条符号表示的折线图等。下面将详细介绍几种常见的图表类型,并结合实际应用场景提供示例。 004 Python 数据可视化 1. 折线图 折线图是通过将数据点依次连接而成的图表,利用折线形象地展示数据沿某一维度的变化趋势,能够清晰地反映数据的增减趋势、变化速率、波动规律及峰值特征。通常将时间序列数据设为x轴,对应的数值设为y轴,适用于展示具有固定时间间隔的数据变化趋势,例如股票分析、天气预报等。例如,图 1-4 展示了海口市4月23日至29日的最高气温和最低气温变化情况。

柱形图是由一组等宽的纵向条形块构成的图表,通过条形的高度来表示数值大小,用于展示不同分类数据之间的差异。柱形图通常将分类指标作为_x_轴的数据,各分类对应的数值作为_y_轴的数据,适用于对中小规模数据集中的各分类进行比较。例如,如图1-5所示,展示了2015至2018年间阿里巴巴公司的营业收入情况。

3.条形图
条形图是一种横置的柱状图,由多个长短不一的水平矩形条构成。相较于柱状图,条形图更适合呈现较多的矩形条,但一般建议矩形条的数量不超过30个。例如,2019年上半年,快手用户对各类商品广告的关注度如图1-6所示。

4.堆积图

堆积图分为堆积面积图、堆积柱形图和堆积条形图。其中堆积面积图是由若干折线与折

线或水平坐标轴之间的填充区域组成的图表,它的最大区域是一个代表所有数据总和的整体,

堆积的各区域代表各组数据,用于反映整体与部分的关系 ;堆积柱形图和堆积条形图是由若干

个以颜色或线条填充、高度不一的纵向矩形条或横向矩形条堆叠而成的图表,用于反映每个构

成部分在总体中的比重。例如,2017 年全球及各地区一次性能源的消费结构如图 1-7 所示。

5.直方图
直方图亦称质量分布图,是以不同高度的垂直矩形条或线段构成的图表,用于展示数据的分布规律及其波动程度。该图表通过将连续型数据划分为若干不重叠的数值区间,以这些区间为_x_轴数据,相应区间内统计的频数值作为_y_轴数据,从而直观反映数据分布特征。其应用广泛,不仅在工程领域用于评估产品质量分布规律及不合格率,也可在人工智能领域用于识别人脸特征。例如,某厂商对100个抽样产品的质量等级评定情况进行图示展示,如图1-8所示。

柱形图与直方图在展示效果上基本相同,但两者之间存在显著差异,主要区别在于:
(1)柱形图主要用于展示分类数据(记录不同类别数据的分布情况),而直方图则用于展示连续数值区间(一定区间内连续数值所组成的数据)的分布情况;
(2)柱形图中的矩形条之间具有固定间距,而直方图中的矩形条之间则没有任何间隙。
6.箱形图
箱形图又称盒须图或箱线图,是一种基于数据中的5个统计量(最小值、下四分位数、中位数、上四分位数和最大值)来描述数据的图表,主要用于反映一组或多组数据的对称性、分布情况、异常值分布、偏态与尾重等信息。其形状类似于箱子,因此得名。箱形图不仅能够识别数据中的异常值,还能判断数据的偏态和尾部形状,并且在质量控制等领域具有广泛应用。例如,不同厂家所生产的地毯耐用性比较如图1-9所示。

图1-9中的四个图形从左至右依次代表厂家1、厂家2、厂家3和厂家4的产品地毯。每个图形的结构均一致,包含一个矩形箱体、两条竖直线和两条水平线。箱体象征数据的集中区域,竖直线分别表示数据向上的延伸和向下的延伸,水平线则代表数据的最大值和最小值。若数据中存在异常值,即离群值,会在水平线上方或下方以圆圈的形式标注。为了便于理解,下面通过图1-10来详细说明箱形图的结构及异常值的分布情况。

7.饼图
饼图由不同面积的扇形块构成,每个扇形块用条形或颜色填充,形成一个圆形图表。饼图通过圆形整体来表示数据的总量,各个扇形则分别代表数据中各项占总量的比例大小。这种图表形式主要用于直观展示数据中各项与总量之间的比例关系,能够清晰地体现整体与部分之间的联系。例如,2018年全国居民的人均消费支出情况如图1-11所示。

值得一提的是,圆环图也能显示各项与整体之间的关系,它使用圆环表示整体,组成圆

环的每个楔形表示各项的占比,外形像空心的圆饼。与饼图相比,圆环图可以展示多组数据

的比例,但并不容易被人们理解,很多时候可以用堆积柱形图或堆积条形图替代。

8.散点图

散点图又称 X-Y 图,是由若干个数据点组成的图表,主要用于判断两变量之间是否存 在某种关联,或者总结数据点的分布模式。散点图中数据点的分布情况可以体现变量之间的 相关性 :若所有的数据点在一条直线附近呈波动趋势,说明变量之间是线性相关的 ;若数据 点在曲线附近呈波动趋势,说明变量之间是非线性相关的 ;若数据点没有显示任何关系,说 明变量之间是不相关的,常见于分析两变量相关性的场景。例如,股票回报率与基金回报率 的投资分析情况如图 1-12 所示。

气泡图
气泡图是散点图的一种变形,是一种用于展示多变量关系的图表类型。在坐标系中使用两个变量来标注气泡的位置,第三个变量则通过气泡的大小来表示。这种图表类型适用于分类数据对比分析、多变量间相关性研究等情况,常见于财务数据分析中。例如,第1梯队和第2梯队主流App用户数量与上线时间的分布情况如图1-13所示。

值得一提的是,气泡图中过多的气泡会增加图表的阅读难度,因此气泡的数量不宜过多。 为了能在有限的气泡中展示更多的信息,可以给气泡图中的气泡加入交互功能,单击该气泡即可查看其隐藏的信息。

10.误差棒图

误差棒图是使用误差棒注明被测量数据的不确定度大小的图表,用于表示测量数据中客

观存在的测量偏差(标准差或标准误差)。误差棒图中误差棒是以被测量数据的平均值为中

点,在表示测量值大小的方向上画出的一条线段,线段长度的一半为不确定度。例如,某城

市上半年降雨量的统计分析如图 1-14 所示。

11.雷达图
雷达图亦称蜘蛛网图、星状图、极区图,由多个等距同心圆或正多边形以及若干坐标轴构成,是一种表现多维(4维以上)数据的图表。各坐标轴均从同一个圆心点出发,延伸至外围圆的边缘,每个坐标轴代表一个指标维度,其上会将多个维度的数据映射成对应点,将各数据点依次连接,形成一个多边形区域,适用于对多指标对象进行全局性、整体性评价的场景,常见于企业经营状况的评价和财务分析。例如,某人在进行霍兰德职业兴趣测试后,其结果如图1-15所示。

12.统计地图
统计地图是一种基于地图,采用多种线型、颜色、几何图形或实物注释来标记指标数值及其在不同地理位置的分布特征的图表。其主要作用在于描述某些现象在地理上的分布情况,适用于对比分析人口、资源、产量等在各地区的空间分布差异。例如,如图1-16所示,某平台的朔州市用户分布情况为:

三维图表类型是通过三维坐标系展示数据的图表形式。常见的三维图表包括三维散点图、三维折线图、三维曲面图、三维柱状图等。相较于二维图表,三维图表的表现更为出色且富有表现力,能够更直观地呈现多维数据,且能够模拟多种真实场景,广泛应用于金融、气象、地理、建筑、交通等多个领域。例如,豆粕期权隐含波动率的变化趋势如图1-17所示。

全部评论 (0)

还没有任何评论哟~