Evaluation of Sampling Methods for Scatterplots
作者
清华大学
- Jun Yuan
- Shouxing Xiang
- Shixia Liu
中南大学
- Jiazhi Xia
西交利物浦大学
- Lingyun Yu
摘要
给定一个有数万甚至更多点的散点图,一个自然的问题是,应该使用哪种采样方法来创建一个小而“好”的散点图,以实现更好的抽象。我们提出了一个用户研究的结果,调查了不同的抽样策略对多类散点图的影响。本研究的主要目的是了解采样方法在保持密度、离群值和散点图的整体形状方面的能力。为此,我们全面回顾了文献,选择了7种典型的抽样策略和8种有代表性的数据集。然后我们设计了四个实验来了解不同策略在保持区域密度方面的表现:1)区域密度;2)类密度;3)异常值;(4)采样结果中的整体形状。结果表明:1)为了保持区域密度,选择随机采样;2)蓝噪声采样和随机采样在保持类密度方面与三种多类采样策略具有可比性;3)基于偏置密度采样、基于递归细分采样和蓝色噪声采样对离群值保持效果最好;4)蓝色噪声采样在保持散点图整体形状方面优于其他采样。
Introduction
当数据变大时,散点图就变得不那么有效了。
- 过度绘制将对理解散点图的能力产生不利影响
- 生成可视化的速度,即加载和渲染源数据,将成为一个相当大的问题
许多努力致力于解决散点图中的过度绘制问题,包括采样,抽象,修改视觉标记的大小和不透明度,以及其他混合方法。然而,它们中的许多仍然遭受可扩展性问题。

采样策略
- 随机采样
- 蓝色噪声采样
- 密度偏差采样
- 多类蓝色噪声采样
- 基于离群偏差密度的采样
- 多视图 Z 阶采样
- 基于递归细分的采样
四个典型分析任务
- 确定相对区域密度
- 相对类别密度
- 轮廓
- 形状
我们提出了四个假设。我们假设
(1)对于没有类别信息的散点图,在相对区域密度识别任务中,所有其他采样策略在准确性和效率方面都优于随机采样;
(2)对于具有类信息的散点图,多类抽样策略在相对类密度识别任务中的准确性和效率优于其他抽样策略;
(3)基于离群偏密度的抽样在离群点识别任务中是最好的;
(4)蓝色噪声采样和多类蓝色噪声采样在保持整体形状方面比其他策略表现更好。
根据实验结果,我们进行了综合统计分析。客观指标的分析结果表明:
(1) H1 被拒绝;通过随机抽样,参与者用更少的时间以更高的准确度完成区域密度识别任务;
(2) H2 得到部分证实;除了蓝色噪声采样之外,多类采样策略比其他策略获得了更高的精度;通过随机抽样,参与者用更少的时间来完成类别密度识别任务。
(3) H3 得到部分证实;在识别异常值方面,基于异常值偏差密度的采样、基于递归细分的采样和蓝色噪声采样的性能优于其他策略。
(4) H4 得到部分证实;蓝色噪声采样在形状保持方面表现最佳,而多类蓝色噪声采样在中等水平上表现最佳。主观问题的分析结果为抽样策略提供了有用的见解。它们揭示了客观度量结果的主观原因。
在分析之后,我们总结了七种抽样策略支持我们确定的任务的能力。
总之,我们对散点图的抽样策略进行了全面的基于感知的评估。我们提供了一个精心设计的评估和一系
列指导性的发现,为在特定任务场景中选择抽样策略提供了指导方针。此外,我们还提供了一个用于散
点图采样的 Python 库,其中包含 14 种常用的采样算法,可在 https://github.com/libsampling/
libsampling.
Related Work
Sampling Strategies for Scatterplots

Evaluation Studies of Sampling Methods
- Generic Evaluation
- Instance-oriented Evaluation
Evaluation Landscape
- Selection of Sampling Strategies
- Selection of Datasets
- Selection of Visual Factors


Pre-Study
- Experiment 1: Sampling Number Identification
- Experiment 2: Understanding Color Effect on Region Density Identification
我们决定在正式研究的区域密度比较实验中使用单色散点图来消除颜色效应

FORMAL STUDY
Hypotheses
- H1:在保持相对区域密度方面,所有其他抽样策略的表现都比随机抽样好。
- H2:多类适应抽样策略在保持相对类密度方面比其他抽样策略表现更好。
- H3:基于异常值偏差密度的抽样是保存异常值的最好方法。
- H4:蓝色噪声采样和多类蓝色噪声采样在保持整体形状方面优于其他策略。
在四个假设(H1H4)的指导下,我们设计了四个实验:
实验 1 (E1)设计用于感知相对区域密度保持(H1),
实验 2 (E2)设计用于感知相对类密度保持(H2);
实验 3 (E3)是为异常值维护的感知而设计的(H3);
实验 4 (E4)是为了整体形状保持的感觉(H4)。
注意 E1E3 是对照实验,E4 是主观实验。

Experimental Results







由于蓝色噪声采样在所有实验中都有竞争力,因此建议在数据探索中更广泛地使用。
随机抽样在 E1 和 E2 中表现相对较好,这表明,考虑到抽样散点图的简单性,当用户试图在抽样散点图中保持相对密度时,它仍然是一个有竞争力的选择。
此外,由于基于异常偏置密度的采样和基于递归细分的采样显示了它们在异常保持和形状保持方面的能力,当遇到这种实际需求时,用户可能会更加关注它们
Discussion
- Important Visual Factors in Sampling
- Influencing Factors of Perception and Design Considerations for Sampling
- Limitations and Future Work


Conclusion
本文从感知的角度对散点图的抽样策略进行了实证评估。在对现有文献进行全面调查后,我们确定了散点图的七种代表性抽样策略和三个关键视觉因素。基于这些结果,我们制定了四个假设,并设计了四个实验来评估所选择的采样策略保留所识别的视觉因素的能力。我们首先进行预研究,以确定每个数据集的适当采样数,并确认颜色对区域密度识别的负面影响。正式研究的结果表明:(1)从时间和精度上看,随机抽样在区域密度保持上是最好的;(2)蓝色噪声采样和多类采样策略在保持类密度方面是准确的,而随机采样在这方面是高效的;(3)基于递归细分的采样、基于异常偏置密度的采样和蓝色噪声采样在异常保持中更受青睐;(4)蓝色噪声采样在整体形状保持方面是最好的。这些结果为不同应用场景中采样策略的选择提供了实际指导。
