Advertisement

seaborn可视化数据框中的多个列元素

阅读量:

欢迎关注”生信修炼手册”!

seaborn提供了快速呈现数据框中各列元素分布及其相互关联功能的pairplot函数。该函数会自动生成数据框内数值型变量的分布图,并以矩阵形式展示各变量间的分布与关联情况。其中主对角线单元格则用于展示单个变量的概率密度或频率分布,在其余空间则绘制每两个变量之间的散点图或相关图表以反映它们之间的关联程度。具体操作方法如下:

复制代码
 >>> df = pd.read_csv("penguins.csv")

    
 >>> sns.pairplot(df)
    
 >>> plt.show()

输出结果如下

该函数会自动生成数据框内的3个字段并进行可视化展示,在主对角线位置采用直方图来展示每个字段的数据分布情况;对于位于主对角线以上和以下的部分,则分别用于表现各字段之间的关联关系,默认会采用散点图作为主要展示形式。该函数常用的参数包括以下几个。

1. corner

上下三角矩阵区域的元素本质上存在大量重复信息。该参数允许仅展示图像的一半区域以消除冗余,在实际应用中,请确保正确设置该参数以实现预期效果。

复制代码
 >>> sns.pairplot(df, corner=True)

    
 >>> plt.show()

输出结果如下

2. kind和diag_kind

这两个参数用于指定上下三角区域以及对角线区域的可视化表示方式,并具体用法是:例如通过设置特定的布尔值来选择是否显示这些区域

复制代码
 >>> sns.pairplot(df, kind='reg', diag_kind='kde')

    
 >>> plt.show()

输出结果如下

3、 x_vars和y_vars

在默认设置下,默认情况下程序会完成对数据框内所有数值型字段的可视化处理。其中x_vars和y_vars用于指定需要可视化的具体字段名称,请参考使用说明。

复制代码
 >>> sns.pairplot(df, x_vars=['bill_length_mm', 'bill_depth_mm'], y_vars=['bill_length_mm', 'bill_depth_mm'])

    
 >>> plt.show()

输出结果如下

4. hue

hue参数用于分组变量的颜色映射,用法如下

复制代码
 >>> sns.pairplot(df, hue='species')

    
 >>> plt.show()

输出结果如下

在pairplot函数中,我们可以分别设置非对角线区域和对角线元素位置的呈现方式,并附上示例

复制代码
 >>> g = sns.pairplot(df, hue='species')

    
 >>> g.map_lower(sns.kdeplot)
    
 >>> g.map_diag(sns.histplot)
    
 >>> g.map_upper(sns.regplot)
    
 >>> plt.show()

输出结果如下

该pairplot函数具有多维度的数据关系展示能力,在对数据分布进行快速分析时展现出很好的实用性

·end·

—如果喜欢,快分享给你的朋友们吧—

原创作品值得尊重!不妨收藏分享一下吧!在生物信息学领域浩瀚的知识海洋中,让我们携手共进,共同探索生信学习的道路吧!

本公众号专注于耕耘生物信息学领域多年,并积累了深厚的数据分析经验;致力于为用户提供高质量的数据分析服务;在个性化分析方面有着深厚的积累;诚挚地欢迎有需要的老师和同学前来咨询。

更多精彩

变异探测与数据挖掘专题

Circular RNA 数据分析专论

miRNA数据分析专题

Hi-C数据分析主题

CNV数据分析专题

CNV数据解析专家分享

CNV数据解析专家分享

[年度文章综述

写在最后

分享本文至朋友圈;在微信公众号后台发送私信并附上截图后即可加入生信交流群;与朋友们一起交流学习。

扫描下方二维码,关注我们,解锁更多精彩内容!

一个只分享干货的

生信公众号

全部评论 (0)

还没有任何评论哟~