论文阅读 :A survey of visual analytics techniques for machine learning
题目:A survey of visual analytics techniques for machine learning
A survey of visual analytics techniques for machine learning
-
概述
-
Introduction
-
Taxonomy
-
在模型构建前的技术
-
数据质量和准确性
-
特征工程与优化
- Techniques during model building
- Techniques after model building
-
-
Techniques prior to model building are essential for establishing a robust foundation.
- The primary objective is to enhance data quality, which ensures accurate and reliable information.
-
At the instance level, individual data points are optimized for precision.
-
Label-level improvements ensure consistent categorization across datasets.
- improving feature quality
-
- The primary objective is to enhance data quality, which ensures accurate and reliable information.
-
Methodologies employed in constructing models
-
-
- Comprehension of the model structure
-
-
- Analysis of parameter influences
-
- Assessment of system dynamics
-
-
-
模型诊断
- 分析训练动力学
- 模型转向
- 借助人类知识优化模型结构
- 在集成中进行模型选择
-
Techniques after model building
-
-
- understanding static data analysis results
-
-
- textual data analysis
other data analysis methods
- textual data analysis
-
-
-
Understanding dynamic data analysis results involves effectively interpreting and analyzing data that changes over time. This process includes both offline and online analytical techniques to extract meaningful insights for decision-making purposes. Discrete-time modeling is employed in offline scenarios, where data is collected and processed at specific intervals, while continuous-time modeling is utilized in online contexts, allowing real-time data processing and immediate responses.
-
研究领域的机遇
- 前提条件是模型构建的基础
- 通过提升数据质量来增强弱监督学习的效果
- 实施可解释性的特征工程以提高模型可靠性
- 前提条件是模型构建的基础
-
机会在模型构建过程中
-
-
- 网络化训练的评估(Online training diagnosis)
-
- Interactive model optimization(Interactive model refinement)
-
-
模型构建后的机会
-
-
- 对多模型数据的理解
-
-
分析概念漂移的过程
-
Conclusions
-
References
-
概述
本文发布于Computational Visual Media 2020
原文链接:https://doi.org/10.1007/s41095-020-0191-7
由清华大学刘世霞教授领导的研究团队撰写的这篇综述性文章系统地探讨了机器学习领域中的视觉分析技术。该研究者详细梳理了过去十年间发表的259篇论文以及2010年前的经典著作,并构建了一个分类框架,并列举了具有代表性的作品来揭示当前的研究难题及其未来发展方向
本研究主要聚焦于数据分析技术,并旨在帮助开发具有高度可解释性、可靠性和高度可信度的机器学习程序。选择的论文包括InfoVis、VAST、Vis、EuroVis、Pacific Vis、IEEE TVGC以及CGF和CG&A等期刊或会议论文集中的作品。
Introduction
多种视觉分析方法被提出以促进机器学习的可解释性,从而使得机器学习模型更加值得信赖和可靠.这些研究工作充分结合交互式可视化与机器学习的优势,通过提升对主要组件及其功能的理解来提高性能.例如,用于增强深度卷积神经网络内部可解释性的视觉分析研究,成功提升了深度学习模型的透明度[1-4].
Taxonomy
本文按照一个典型的人工智能流程[8]对所有作品进行分类,该流程包含三个关键环节:数据预处理阶段、模型构建过程以及应用部署阶段。因此,本研究将视觉分析方法应用于这三个关键环节:前期的方法论、中间的技术路径以及后期的应用策略
Techniques before model building
在模型构建之前运用可视化分析技术的主要作用是支持模型开发人员更有效地做好数据准备工作。从本质上讲,影响数据质量的关键因素包括其自身的特征以及所采用的技术特性。具体而言,则有两个核心研究方向:一是通过可视化手段提升数据分析效果;二是开展深入的特征工程研究。
data quality
采用多种方法来提升数据质量, 比如补充缺失的数据属性并修正错误的数据标签. 过去这类任务主要依赖于人工处理或自动化手段. 如学习自Crowds算法能够从混乱的人群标注中推断出真实的 ground-truth 标签[9]. 为了减少专家的工作负担同时优化自动化方法的效果, 部分研究则采用可视化分析技术以交互式提升数据质量. 最近该领域逐渐受到广泛关注.
feature engineering
为了实现最优模型的建立与训练目标,在视觉分析领域中采用交互式的特性与迭代性的流程来进行特征求解。近年来,在数据处理与建模方面的主要研究集中在基于神经网络的技术上,并随着对优化需求的关注提升而不断探索新的解决方案
Techniques during model building
模型构建是机器学习成功应用的核心环节。研发可视化分析工具以促进模型构建也成为可视化领域日益活跃的研究方向之一。本论文将采用不同方法按照分析目标进行分类,并将其划分为三个主要类别:即基于深度学习的理解方法、基于统计学的诊断技术以及基于强化学习的知识迁移策略(Model Understanding Methods, Statistical Diagnostic Techniques, and Knowledge Transfer Strategies Based on Reinforcement Learning)。其中用于直观地解释机器学习算法工作原理的方法旨在揭示参数变化对最终预测结果的影响机制及其背后的理论依据。而用于通过对训练过程进行交互探索的技术则主要用于诊断训练过程中可能出现的问题及优化空间。最后一种用于通过交互优化提升性能的方法则强调在人机协作下实现系统性能的最大化提升
Techniques after model building
完成机器学习模型的构建与部署后, 为用户提供直观展示, 从而增强其对这一过程及其结果的理解, 是至关重要的. 这类用于探索其结果特征的技术主要关注于直观展示, 而不是针对开发人员或研究人员的技术. 这些技术的核心重点则集中于如何清晰地表现其结果以及深入探讨相关特性上. 根据所分析的数据类型, 我们将此类技术划分为两类
Techniques before model building
在构建机器学习模型的过程中,首先要完成的核心任务是数据预处理与特征工程。高质量的数据与可靠的特征对于提升机器学习模型的性能至关重要.数据质量问题主要体现在数据缺失、异常值以及实例与其标签中的噪声等方面,而特征质量问题则涉及特性的相关性问题以及特异性冗余现象.相比之下,完全依赖人工干预的方法往往效率低下,但是一些自动方法虽然在某些方面表现一般,但仍不失其一定的价值.通过一系列可视化分析技术的应用,在一定程度上降低了专家的工作负担并提升了自动化生成高质量数据与可靠特征的能力[10].
Improving data quality
数据集包含了多个实例及其对应的标签信息;从这一角度看,现有的用于提升数据质量的方法主要聚焦于两个层面:一是针对每个实例的具体优化;二是对标签准确性进行系统性提升。
instance-level improvement
在实例级别的数据可视化方案中,在实例级别的数据可视化方案中,在实例级别的数据可视化方案中,在实例级别的数据可视化方案中,在实例级别的数据可视化方案中,
许多可视化方法专注于检测和纠正数据中的异常现象。研究者开发了profiler系统,在此系统下能够有效地识别并评估表格数据中的异常情况。通过采用基于异常检测的方法对数据进行分类与归类,并在此基础上自动推荐链接摘要可视化的解决方案以辅助发现潜在的原因与后果。此外,在纵向队列研究领域中出现的数据缺失问题得到了专门的关注与处理。研究者开发了VIVID工具来解决这一问题,并通过多重协同可视化的手段帮助专家识别缺失值的根本原因并选择合适的模型来进行填补操作以保证结果的质量与可靠性。为了提升用户对处理后数据的信任度,
DQProver Explorer提供了一种直观的数据源分析界面,
使用源图展示数据分析状态并利用时间序列图展示随时间变化的数据质量特征。
这一迭代过程中的关键步骤可以帮助用户直观地观察到质量变化过程并增强对处理后结果的信心。
对于那些无法由训练集充分覆盖的测试样本(即非样本分布或OoD样品),
研究者提出了OoDAnalyzer系统来进行检测与分析工作。
该系统采用了基于对象的集成检测方法结合高阶与低阶特征提取策略,
并通过网格布局视图(如图所示)
的形式对上下文环境中的OoD样品进行定位并解释其潜在存在的原因。
为了提高勘探效率,
一种基于霍尔定理的KNN网格布局算法被开发出来

当处理时间序列数据时,由于时间具有独特的特征,在时间和上下文中进行深入分析带来了特殊的挑战性问题。为了解决这些问题,[15]提出了一种名为Visplause的可视化分析系统来直观评估时间序列数据的质量。该系统通过热图形式展示异常频率及其分布情况,并利用层次结构整合数据以实现对一组异常(例如同一类异常的时间序列)的整体分析。除了自动检测异常外,[16]提出的KYE方法还能够识别传统方法可能遗漏的额外异常现象。该方法通过热图视图呈现异常模式(例如具有异常高值的区域),从而揭示潜在的问题点。为了进一步细化对点击流数据(一种广泛研究的时间序列数据类型)的分析,[17]提出了一种名为segmentfier的迭代探索工具来辅助分割和深入研究这些片段数据。用户可以在三个不同粒度协调视图中自由探索片段,并通过过滤、分区和转换操作进一步细分它们。每一次细化都会生成新的细分结果,并为后续进一步分析提供了基础
为了应对数据质量改进过程中存在的不确定因素,[18]研究团队开发了一种可视化分析工具,用于展示不同预处理方法所带来的数据变化以及相关不确定性程度。该工具通过帮助专家识别出影响结果的关键因素,从而选择最适合的方法,优化去除了对任务无用的信息的同时,则成功保留了那些对任务至关重要的数据。
为避免数据可能泄露而导致的潜在风险, 近年来的研究重点集中在提升数据质量和保障隐私权的双重目标上. 针对结构化存储的数据类型, 学者们构建用于评估隐私风险的可视化工具, 并设计了一种动态评估策略, 以量化不同操作对用户信息影响的程度. 同时, 一项名为GraphProtector的智能化分析平台应运而生, 其主要功能是帮助用户识别并修复网络架构中存在威胁的数据. 在具体实施过程中, 首先通过评估节点关键程度来确定其紧急程度, 这一机制能够有效降低重要节点被随意修改的可能性. 最后, 用户可以根据自身知识库中的专业知识选择最适合的操作方案以达到最佳防护效果
label-level improvement
基于数据中是否带有噪声标签的情况而言,在现有的作品中主要采用两种分类方式:一种是通过提升噪声标签的质量来实现其识别效果;另一种则是允许模型在标注时进行交互式的调整以获取更精确的结果。
Crowdsourcing通过一种经济高效的方式完成了标签收集任务。然而,在这一过程中产生的大量标注数据往往包含大量噪声信息。为了消除标注数据中的噪声问题,[21]提出了一种基于众包的聚类算法,旨在去除参与者提供的冗余解释内容并筛选出最具代表性的样本作为参考依据。为此,研究团队首先对这些解释进行了分类整理,然后从中筛选出最具代表性的样本进行深入分析。[22]提出了C2A系统,实现了对注释内容与操作行为的可视化展示,从而帮助临床医生在视频中更加准确地识别恶性肿瘤案例。该系统能够根据视频片段中肿瘤的存在与否状态自动筛选出无肿瘤片段并集中处理具有肿瘤特征的内容,从而显著提高了后续分析效率。[23]开发了CMed系统,在此基础上实现了临床图像标注与操作行为的实时可视化功能,并通过分析注释精度数据对参与者进行科学分类并评估其表现质量,最终帮助医疗专家筛选出最专业的标注人员并优化他们的工作行为模式以提升整体项目效果。[24]在此研究框架下构建了三个协同可视化工具:一个是混淆矩阵(a),一个是实例级别的错误分析(b),还有一个是用于监督学习的工作者行为可视化界面(c)。这些工具能够帮助识别和验证难以确定标签准确性较高的实例以及可能存在误判的操作者表现特征,从而持续改进整体项目的标签质量。在完成上述验证工作后,我们持续补充新的测试案例并在适当时机邀请更多专业人员参与评估工作

在众多真实世界的数据集中(如ImageNet),人工标注信息往往难以获取。
这些方法都始于带有噪声的标记数据,在这种情况下它们往往难以满足实际需求。针对这一问题出现了多种基于交互式标注的方法和技术。交互式标注的主要目标是减少人工标注的工作量。例如,[28]提出了一种利用自组织映射(SOM)的可视化技术将相似图像聚在一起的方法,允许用户一次标注同一类的多个相似图像;[29]则采用相同策略以识别具有异常行为特征的社交垃圾邮件群体;[30]将其应用于移动眼动追踪数据分析;[31]进一步用于电影中色彩策略分析等场景;此外,还有一种过滤技术也被用来筛选出感兴趣的内容并进行标注,通过排序功能使用户能够集中关注特定类别内容;特别地,[32]开发了一种结合过滤与排序功能的方法,能够快速定位相似视频片段并通过表格展示其属性信息;最后,[33]又设计了一个基于规则引擎的功能,帮助专家通过自然语言与图形交互界面来制定和应用特定规则
最近为了提升交互式注释的效果 各种视觉分析手段已成功实现了将可视化技术和机器学习进行整合 比如active learning这一技术的应用 尤其是由[34]首次提出了一种名为" in intra- active labeling "的概念 该研究者增强了对人类知识进行主动学习的能力 该方法不仅允许通过主动学习来获取实例并进行注释 还实现了对机器学习模型的交互式理解与操控
除了构建交互式标注系统外, 还有一系列实证研究旨在验证其有效性
improving feature quality
采用主要方法实现提升数据质量的关键在于选取对目标预测具有重要性的关键属性即进行特征选择这一过程. 一种常见的策略是挑选一组相互之间冗余度较低且与目标变量高度相关的特征子集沿着这一思路发展出多种交互式分析方法. 其中一种创新性的工作是提出了一种基于相关性的排序框架该框架通过计算各属性间的相关系数将它们按照重要程度排序并将结果以表格形式和矩阵图的形式进行可视化展示. 另一种研究则提出了分层展示的方法将所有属性或属性对划分为多个层次从而允许研究者在不同粒度上深入探讨其间的关联关系. 此外还有一种称为并行坐标图的可视化工具能够直观地识别出能够有效区分不同类别群组的关键属性. 最后还有一种系统化的方法通过综合运用多种特征选择算法交叉验证技术以及分类模型评估体系帮助研究者动态地筛选最优组合并实现最佳模型构建.
除了选择现有的基本要素,在模型构建过程中引入新的基本要素同样具有重要意义。(40)建议为文本分类生成新的特征指标。通过直观分析分类器产生的误判案例,并深入探究导致误判的根本原因,从而帮助用户设计出一种能够有效识别错分文档的新功能。为了增强新特征在不同场景下的适用性(泛化能力),视觉摘要技术被用来分析一组误判案例而非单个案例。
Techniques during model building
机器学习模型因其不可解释性特征而常被视为难以理解的技术工具,在自动驾驶汽车、金融投资等高风险领域的实际应用受到阻碍。当前视觉分析技术的目标在于深入解析机器学习模型的基本运行机制,并为开发人员提供有效的支持以提升模型性能。为此,开发人员必须深入理解其工作原理,并通过系统性的方法来优化这些复杂的系统。当训练过程遇到困难或无法达到预期效果时,开发人员需要通过诊断来识别问题所在并采取相应措施。最后,在优化阶段投入大量时间以改进模型性能,并将其应用于实际场景中以实现更好的控制效果
model understanding
与模型理解相关的领域研究主要包含两大类:一类是关注模型参数的作用机制,另一类则是探究模型运行的行为特征
Understanding the effects of parameters
一方面是对模型输出进行考察其随著参数变化的情况。
[42] 开发了一个用于鸟类预测的BirdVis工具(用于鸟类的预测),旨在探索不同参数配置与其对应的输出结果之间的关系,并揭示各组参数间的相互关联性。
[43] 进一步提出了基于视觉化的方法来分析变量对其逻辑回归统计指标的影响。
Understanding model behaviours
除了上述提到的内容之外,在模型理解中还应关注其输出生成的途径。主要采用三种分类方法:基于网络、基于实例以及混合型分析技术。
以网络为核心的体系

基于实例的方法旨在提供实例级的分析与探索能力,并揭示不同实例之间的关联性。[47]通过将神经网络各层学到的不同表示投影到二维散点图中进行可视化展示。观察者能够识别出表示投影中的聚类区域与混淆区域,并以此深入了解网络所学习的表示空间结构。此外,在训练过程中对表征空间进行动态研究的能力也被用来分析网络的学习行为模式。一些用于解析循环神经网络(RNNs)的研究工作采用了类似的基于实例的设计思路。LSTMVis [48]采用平行坐标的形式展示隐藏状态的变化情况;而RNNVis [49]则将其每个隐藏状态单元(即一个独立维度的空间)视为一个单独的记忆芯片,并将其聚类为词云形式;同时通过构建二分图模型来揭示隐藏状态单元之间的关系模式
该混合方法整合了上述两种技术方案,并充分运用了各自的优势。特别地,在这一特定环境下得到了显著提升。特别地,在这一特定环境下得到了显著提升。该系统通过整合嵌入视图技术来汇总各类间的激活模式,并结合属性图技术以展示各神经元间的影响联系。开发出Summit系统旨在识别对模型预测具有重要意义的神经元及其相互关联关系,并通过投影视图技术直观展示实例样本及其所属类别间的激活关联。该工具基于计算图来进行大规模深度学习模型结构可视化分析,并通过投影视图技术直观展示实例样本及其所属类别间的激活关联
现在有一些观点是使用代理解释模型(surrogate explainable model)来解释机器学习模型的行为。这种方法的主要优点在于无需用户深入研究模型内部机制。因此,在缺乏专业知识或仅具备基本机器学习知识的受众中具有较高的适用性。将分类器视为一个不可知的黑箱系统[52]后会先从分类器的输入与输出中提取基于规则的知识;然后通过构建规则矩阵(Rule Matrix),从业务人员能够进行交互式探索以优化可解释性;此外还开发了一种名为DeepVID的方法用于生成图像分类器的视觉解释工具;针对选定的目标图像对象而言;深度生成模型被用于在目标图像周围生成额外样本;随后利用这些样本训练一个更为简单且易于解读的一阶分类器;比如线性回归分类器;这种辅助工具有助于深入理解原始复杂模型是如何做出决策判断的关键
Model diagnosis
用于模型诊断的视觉分析技术可以分析训练结果,或者分析训练动态
现在有许多以分类器性能诊断为基础构建的分类器工具[54, 55, 56, 57]。例如,在文献[57]中指出Squares方法采用方框表示样本,并依据预测类别将样本进行分类。通过采用不同类型的纹理特征来区分真实阳性、假阳性及阴性样本,在多个细节层次上快速且准确地评估其性能
当前模型的公平性问题日益受到学术界的关注[58,59,60]。例如,在文献[58]中提出了一种名为FairSight的研究框架,并实现了可视化分析系统来支持排名中的公平性评估工作。研究者将机器学习流程划分为数据收集、模型训练以及结果评估三个阶段(数据、模型和结果),随后利用多种度量方法分别从个体层面对比组间差异并衡量潜在偏差的存在程度。通过这些指标的计算与分析...
目前仍有研究致力于深入研究模型中的潜在漏洞问题,并指出这些漏洞会阻碍其可靠应用于实际场景[60,61]。其中[60]提出了一种名为AEVis的方法用于分析对抗性例子如何欺骗神经网络系统(如图所示)。该系统将正常输入与对抗性输入作为输入参数,并提取它们的数据路径信息用于模型预测过程。随后通过类比河流流动这一隐喻展示了提取出数据路径的分支与汇聚模式这揭示了对抗性样本如何误导模型的行为特征。此外[61]设计了一系列从宏观概览到细节展示的可视化表示方法以揭示数据中毒(data poisoning)如何会导致模型对特定样本产生错误分类结果。通过对比受污染训练数据集与正常训练数据集在分布上的差异专家能够推断出攻击样本导致错误分类的具体原因

Analyzing training dynamics
近年来的研究则聚焦于分析机器学习模型的动态行为
开发了一种名为DQNViz的新工具,并将其应用于针对breakout游戏中的Q网络进行分析。从宏观层面来看,DQNViz借助时间趋势图表与累积分布图表展示了训练期间统计数据的整体变化情况。详细层级上,研究者采用了分段聚类与模式挖掘方法,以识别出位于agent行为序列中具有典型特征与异常特征的行为类型。
[65]开发了一个名为DynamicsExplorer的工具来分析用于控制迷宫球游戏的LSTM网络的行为模式。该系统通过动态可变性图辅助迅速定位模型异常行为,并结合聚类分析技术展示了样本运动轨迹之间的差异
Model steering
主要策略有两类:基于知识精炼的方法;通过从模型集合中进行选择来实现最优效果。
Model refinement with human knowledge
目前存在多种可视化分析技术,在这些技术中,基于灵活交互的方式使用户能够参与模型细化过程,并在其中形成一个循环反馈机制。
通过可视化分析技术对目标模型进行细化处理,并生成更具层次感的结构表达方式。
其中典型的代表是ProtoSteer框架[66]。
该框架采用多维视角整合展示ProSeNet学得的各种 prototype特征。
系统支持用户根据需求动态调整和优化各个关键节点上的 prototype设计。
系统提供丰富的人工干预功能:包括 prototype添加、删除以及细节修改操作。
支持用户根据实际需求灵活配置 prototype 属性参数。
系统还具备智能推荐机制:能够基于当前 model 的学习结果自动筛选出最有价值的 prototype组合。
所有选定的 prototype 都会被精确提取出来供后续处理操作使用。
在完成所有必要的设置后即可开始 model 重建过程:系统会将优化后的个性化 prototype 集合应用于 model 重建过程中的关键节点位置。
整个重建过程完全自动化:无需人工手动操作即可完成数据流构建与参数更新工作。
除了通过直接更新模型之外,用户还可以主动纠正系统输出中的缺陷或补充额外的知识,并使模型进行隐式更新,在此过程中生成改进后的结果。一些研究致力于将用户的知识整合到主题模型中以提升结果的质量。例如,在文献[69]中提出了ReVision方法:该方法通过使用带约束的进化贝叶斯玫瑰树聚类算法来辅助分层聚类过程,并通过一种基于不确定性原理的树状可视化图展示约束条件与聚类结果的关系(如图所示)。随后,在编辑过后的约束条件下重新执行文档分类工作

此类模型的改进受到环模型上的研究的刺激。例如[70]提出了MutualRanker这一方法,该方法利用基于不确定性的互强化图模型从微博数据中提取重要的博客、用户和话题标签,并展示了其排名结果以及不确定性与传播效果之间的关系;同时,该系统通过一种复合可视化的方式加以辅助,使得用户能够查看图中最不确定的内容,并根据需要调整排名分数。通过在整个图中进行调整传播的方式,在增量更新中实现了模型优化
Model selection from an ensemble
另一种转向策略是基于模型集合中成员的选择机制,在聚类与回归等常见任务场景中广泛应用。[71]作为一个视觉分析系统专为视觉聚类分析而设计,在该系统下,用户可以通过搜索结果进行推荐操作,并获得对输入特征与聚类参数的指导。BEAES[72]系统则专注于支持回归任务中的多目标建模与优化过程,在该框架下生成一系列回归模型集合,并通过交互式权重调整来优化它们。随后允许用户评估这些方法,并基于残差分数与其他评价指标选出最适合的解决方案。
Techniques after model building
在建立之后,当前存在的可视化分析手段主要用于帮助人们通过模型输出获取洞见,这些手段尤其适用于处理高维数据分析结果。这类方法通常是基于数据驱动的技术,研究者依据其处理的数据类型进行了归类。研究者认为时间特性是视觉设计的核心要素,因此,他们主要依据这一关键特征将方法分为两类:一类是专门用于解析静态数据特征的方法,另一类则是专注于动态变化趋势的解析技术。其中,用于解析静态结构的数据可视化系统通常会整合所有模型输出,并形成一个综合集合。对于动态信息而言,在了解每个时间点的基础上,系统通常会着重揭示其随时间的变化规律
understanding static data analysis results
该论文就数据类型的方面探讨了静态数据分析的研究工作并归纳了相关认识。目前大多数的研究主要关注于文本分析技术
textual data analysis
静态数据分析研究最广泛的主题是可视文本分析这一领域,在其框架下将交互式可视化技术和多种文本挖掘方法(如文档聚类、主题模型以及单词嵌入)进行了深度融合的应用与创新。其主要目标在于协助用户深入解析海量文本信息并提取有价值的知识见解。早期研究往往采用直观且简捷的方式呈现传统文本挖掘结果如文献摘要、分类方法和聚类分析等基础技术。
该系统实现了多模态可视化功能包络物展示系统开发完成了列表视图、聚类视图、关键词云、网格布局以及文档浏览功能模块整合这些展现手段旨在直观展示文档摘要结果文档聚类分析结果情感分析评估结果实体识别识别结果以及个性化推荐结果这一系列分析成果通过交互式可视化技术和文本挖掘技术的有效结合构建了一个交互式且详实的分析界面
随后进行的研究主要关注于将优化后的交互式可视化技术与前沿的文本挖掘方法(包括主题模型和深度学习算法)相结合的方式
另一个工具是DemographicVis,该系统由一组开发者开发
该系统通过二维投影分析不同人口群体间的特征相似性
该系统通过二维投影分析不同人口群体间的特征相似性
该系统通过二维投影分析不同人口群体间的特征相似性
现有部分深度学习模型因其实现效果而被采纳。例如其中[77]提出了一种称为cite2vec的方法利用引文信息对文档集合中的潜在主题进行可视化表示该方法扩展了现有的word2vec模型中的skip-gram架构通过融合引文信息与文本内容从而生成单词与文档的嵌入向量。首先利用t-SNE算法将单词映射至二维空间随后将所有文本片段同样映射至同一二维空间
other data analysis
此外,在补充研究的基础上,在所述论文进一步考察了其他类型的流动数据。其中将轨迹线归类为文档单元,并将其特征量化表示为特定的术语集合。在模型建立完成后利用多维尺度方法对原始轨迹线与提取的主题进行二维空间投影处理并通过计算得到二维平面上的分布模式图 并制作多个版本以突出显示关键主题的轨迹线分布情况
可视化分析工具SMARTexplore[79]为分析人员揭示了数据集中维度内部及跨维度之间的复杂关联性及其重要特征,并通过其整合表视图与模式识别技术的能力,在深入挖掘潜在规律的同时实现了对异常数据点的有效识别。该系统巧妙地将表格展示与子空间分析相结合,在提升可视化效果的同时增强了数据分析的精准度
Understanding dynamic data analysis results
除了对静态数据分析结果的理解之外,在研究数据中潜在主题随时间演变的情况同样重要
offline analysis
离线分析研究可以根据分析任务分为:主题分析、事件分析、轨迹分析
掌握大型文本语料库中话题随时间演变的关键性研究课题。现有研究多以河流隐喻理论为基础来描绘语料库随时间的变化过程。《the meriver》[80]是该领域的重要研究方向之一,通过运用河流隐喻理论深入剖析不同主题规模变化规律。为了全面解析文档语料库的内容变化特征,TIARA[81,82]系统地采用了LDA模型对语料库中的主题进行提取,并揭示了这些主题在时间维度上的动态演变规律。然而,面对复杂的研究场景,学者们希望深入探究主题之间的相互关联及其随时间的变化轨迹,仅关注数量与内容变化尚显不足。因此,未来的研究重点应转向对主题间关系(如主题划分与合并)以及其随时间演变模式的深入解析工作。例如,[83]首次提出并应用渐进式分层Dirichlet过程模型系统性地提取文档集合中的主题划分与合并模式[84]。随后又开发出一套具有创新性符号设计的河流隐喻系统,旨在直观展示前述主题关系及其在时间维度上的动态演变过程

[85]通过话题竞争模型提取话题之间的动态互动及其在社交媒体中的影响。
[86]发展了"合作竞争"(cooperation and competition)这一概念框架,并深入探讨其对复杂社会现象的影响。
[87]开发出一种工具IdeaFlow, 用于分析不同社会群体随时间演变的领导地位关系。
尽管这些作品基于扁平化的主题建模架构,在面对海量文本数据时代下受到了限制。为此,在大型文本语料库的主要内容解析方面仍存在诸多挑战。其中一些研究者致力于将分层主题模型与交互式可视化技术相结合以解决这一问题。例如,在这项研究中(引用文献[88]),他们采用了进化贝叶斯玫瑰树算法(引用文献[89])来提取一个层次分明的主题序列;随后计算每个层次中的采样数量作为评估依据。通过这些切点节点值进行分析并将其转换为近似结构表示,并以河流隐喻的形式展示出来;这种视觉化方法不仅帮助揭示出不同层次之间的动态关系(包括新旧主题的产生与消亡、分支与融合过程),还能直观地呈现整体演变脉络
事件分析旨在识别有序事件序列中的常见或语义重要顺序模式。为了便于大规模事件序列的可视化探索与模式发现, 目前已有几种可视化分析方法。例如,[90]开发了一种基于点击流数据的可视化分析方法, 该方法通过从点击流数据中提取并修剪最大顺序模式, 得到了较为贴合四个粒度层次的表现: 模式、片段、序列与事件。[91]开发了EventThread, 该系统采用张量模型将事件序列数据转换为n维张量模型, 并利用张量分解技术提取潜在模式(线程), 分割成阶段后聚类, 将这些线程表示为分割线性条纹, 并借助线映射隐喻揭示不同阶段之间的变化特征。随后, [92]对这一系统进行了扩展工作, 克服了每个阶段固定长度限制的问题: 他们提出了无监督阶段分析算法并开发了一种交互式可视化工具, 用于深入揭示与分析跨阶段演化模式。
其余研究重点围绕着利用移动数据(如GPS记录)进行分析工作。[93]研究者通过从轨迹中提取运动事件,并执行时空聚类来进行聚集处理。这些集群则采用时空包络图来进行可视化表示,以助于分析人员识别城市潜在存在的交通拥堵情况。[94]研究者采用LDA模型来挖掘出租车轨迹中的潜在运动模式类型。每辆出租车的行程路径可被视为一份基于其经过的道路名称作为标识符的数据记录。通过平行坐标图来展示街道在主题分布上的差异性特征
分别将起点-终点流定义为词汇,并将轨迹视为多个段落;接着采用Word2Vec技术生成各起点-终点流的向量化表示;随后通过t-SNE算法将嵌入映射到二维空间中以辅助分布分析;在完成上述操作后,在二维空间中还可以进一步结合地图进行交互观察;此外,在研究者进行轨迹数据分析的过程中还发现有学者会借助Foursquare平台获取目标地点的具体信息(如商店、大学、住所等),并基于这些信息提取频繁出现的空间模式;这些模式经过可视化呈现后能够帮助研究者更好地理解用户的活动规律(如图所示);同时,在时间轴上设置图标的形式有助于更加直观地展示不同时间段的主要活动节点。

online analysis
在线分析对于处理流数据(特别是文本流)显得尤为重要。在探索文本流这一领域时,《98》最先提出了一种名为ScatterBlog的新方法用于分析带有地理位置信息的tweet流。该系统利用Twitter4J获取了流动消息,并从这些消息中提取了位置信息、时间戳、用户ID以及已标记的关键术语。为了更高效地处理推文流量的变化特征,在对相似推文进行分组时采用了增量聚类算法。通过聚类结果实时监控时空上的异常事件并及时向用户反馈相关情况。
旨在减轻用户在 scatterblog 平台进行信息筛选及监控管理的负担。 [99] 提出了名为 ScatterBlogs2 的一种新算法。 通过采用机器学习技术对原有平台进行优化升级。 开发了一种基于支持向量机(SVM)的分类模型,识别并筛选出用户关注的相关推文内容。 并提取并生成与内容相关的主题摘要。
为了高效地管理高容量的文本流,[100]开发了一款名为TopicStream的应用系统,旨在辅助用户分析高容量文本流中的分层主题演化过程。该系统首先从输入的数据流出发,构建了一个进化型的主题层次结构,并通过设计了一种基于层次结构的切分算法,有效降低了信息过载带来的视觉困惑,从而让用户能够聚焦于感兴趣的议题研究者们将该工具与流动模型与层次化可视化策略相结合,成功展示了各层次主题的发展脉络及其相互关系,并清晰地描绘出新 arriving texts逐步融入现有的主题网络中这一动态过程
基于TopicStream的研究成果,[101]团队开发出了名为StreamExplorer的社会流分析系统,其核心功能包括对社会流进行采集与对比分析,并能对社交媒体上的动态变化进行实时追踪与评估。特别是在事件检测领域,该系统采用了基于信息论中的熵值进行事件识别的方法,并结合多维度呈现方式,对社交媒体上的热点话题进行了深入挖掘与展示,包含符号时间轴分析、地理空间分布图以及交互式观察界面
除了处理文本流外,在处理不同种类的流数据时也进行了深入分析。例如,在文献[102]中提出了一种基于长短期记忆模型的道路交通拥堵预测方法,并运用VolumeSpeed Rivers可视化技术对预测结果进行了详细展示。研究者还提取并展示了交通拥堵传播特征图谱,在分析人员能够通过观察检测到的拥堵区域之间的因果关系方面提供了重要支持
Research opportunities
在该部分中, 论文着重探讨了机器学习视觉分析中的核心问题及其潜在的研究方向
Opportunities befour model building
Improving data quality for weakly supervised learning
基于含有质量疑虑的数据进行弱监督学习建模的过程中,我们需要处理三种不同类型的标注问题:即存在误标的情况、标注信息不够完整以及存在模糊不清的分类标准。通过优化数据质量能够显著提升弱监督学习的效果。然而,在现有研究中主要关注于数据标注中的噪声问题(如嘈杂的人工标注和误标现象)以及数据完整性不足的问题(如缺失或仅有少量样本具有标签)。而对如何有效利用未标记数据来补充现有标注信息以解决上述问题的研究则相对较少。
然而目前视觉分析技术尚未充分发挥其解决不完全性问题的潜力。具体而言,在半监督学习中提高无标记数据的质量至关重要,在训练过程中通过将少量有标记数据与大量无标记数据相结合实现对从数据集到标记集正确映射的学习过程。值得注意的是这类关系图往往质量不高这主要归因于自动图构造方法通常依赖全局参数(如KNN图构造方法中的全局k值)这一设定可能在局部区域并不适应实际情况因此有必要深入理解标签传播机制以及局部图结构对其性能的影响基于此专家可以动态调整优化策略逐步生成高质量的关系图
此外,在实际应用场景中虽然存在不精确的数据质量问题这一常见现象,但它往往被视觉分析领域所忽视.该问题的具体情形是指标标签不够精确,例如粗粒度标签.例如在CT断层扫描中常见的就是这一类标签.CT断层扫描中的标签通常来源于相应的诊断报告,用于描述患者是否存在特定的医疗问题(如肿瘤).对于含有肿瘤的CT断层扫描我们只知道其中至少存在一个或多个切片包含肿瘤.然而我们并不清楚哪些切片含有肿瘤也不知道肿瘤在这些切片中的确切位置.尽管已有多种机器学习手段[103,104]致力于解决这种粗粒度标注的问题但由于缺乏足够的信息可能导致模型性能表现不佳.为了进一步改进细粒度验证环节的一个潜在解决方案是将交互式可视化技术与学习算法相结合通过深入分析整体数据分布特征和错误预测结果从而能够更加清晰地识别性能差的根本原因进而构建一个互动验证平台以实现对更细粒度标签的获取同时最大限度地减少专家的工作负担
Explainable feature engineering
现有的改进工作主要集中在传统分析模型中的表格或文本数据上。这些数据的特点具有可解释性,在手工处理时较为便捷。相比之下,在深度神经网络中提取出的特征在性能上优于人工提取的结果。然而由于其作为黑箱模型的特性,在实际应用中对这些深度特性的可解释性较差带来了显著的技术挑战
首先,在数据驱动的过程中获得特征;当数据集存在偏差时,在一定程度上无法充分代表原始图像/视频;例如,在一个仅包含深色狗和浅色猫的数据集中提取出的颜色特征可能过于突出颜色属性而忽略了其他关键特征如形状和结构。由于缺乏对这些潜在偏差的认识,在后续应用中可能会面临难以找到合适的方法来纠正这些偏差的问题。因此,在未来的研究中如何衡量所提取特征保留或丢失的信息量及其表现形式成为一个重要的研究方向
此外,在提取深层特征时存在数据冗余现象。通过去除这些多余的特性将能显著提升模型性能,并带来更多实际利益如减少存储开销与增强泛化能力等优势。然而,在缺乏对特性的具体认知下很难准确判断哪些特性属于冗余类别因此探讨如何有效识别与消除这类多余属性成为一个值得深入研究的方向
Opportunities during model building
Online training diagnosis(在线训练诊断)
现有的用于模型诊断的可视化分析工具大多采用离线运行模式;其使用的数据仅在训练阶段结束后进行收集。这些工具已证实能够识别失败训练的根本原因。然而随着现代机器学习模型的复杂度不断提高...
实现在线诊断的有效性必须能够迅速识别训练阶段中的异常情况。尽管开发实时、自动且精确检测异常算法是一项繁重的任务,但交互式可视化有望提供一种途径,在训练过程中定位潜在的问题。与传统的离线诊断方法不同的是,在这一过程中،来自训练阶段的数据持续被输入到在线分析工具中。因此,为了生成具有意义的部分流数据可视化结果,则需要采用渐进式的可视化技术。这些技术可以帮助专家监控在线模型培训过程,并快速识别可能的问题
Interactive model refinement (交互模型细化)
最近的研究深入探讨了利用不确定性和交互细节来优化交互模型的方法,并提出多种策略为模型输出计算不确定性分数(例如基于分类器生成置信度分数),同时还可以通过视觉提示帮助用户识别高不确定性输出的位置和原因。在细化过程中会重新评估模型的不确定性,并允许用户通过迭代操作逐步优化结果直至满意为止。此外还可以结合额外的信息来提升指导策略从而加速模型优化过程以实现快速准确的结果生成然而目前交互模型改进的空间仍待进一步探索一个可行的方向在于利用历史交互数据来优化后续指导策略例如在集群应用中可以根据用户之前定义的一些约束条件动态调整中间结果以避免不合理分割或合并的情况同时还可以结合领域知识来识别需要改进的地方例如当模型输出与已有的公共知识库产生冲突时应特别关注这些潜在问题并据此设计相应的优化策略基于知识驱动的方法不仅能够揭示潜在不合理结果还能为用户提供更加灵活的选择以指导后续优化过程
Opportunities after model building
Understanding multi-model data
现有内容分析方法在处理单一模式的数据(如文本、图像和视频)方面展现了显著成效。然而,在现实世界中应用的数据通常是多元化的,并融合了多种不同的信息类型。例如,在诊断患者时医生会综合考虑包括电子健康记录(text)、实验室检验报告(table)以及CT影像(image)等多种数据。传统的基于单一模式的数据分析方法难以充分揭示不同模式之间的深层联系。
通过采用多元化的机器学习技术,并充分挖掘其能力潜力来解析不同形态的数据呈现出了巨大前景。因此,在深入理解这些多模态学习模型输出机制方面开发一个更为强大的视觉分析系统显得尤为重要。研究者们已开发出多种机器学习架构来构建多元数据表征的方法,并特别关注于将自然语言、视觉信息以及语音信息整合起来[105,106].展望未来,在如何高效整合并可视化这些复杂而丰富的多元数据表征模式这一领域仍有许多探索的空间。在提升视觉分析系统的智能化方面,默认的任务(如基于描述识别图像区域)可被视为构建用户友好交互界面的重要组成部分。
Analyzing concept drift
在现实世界的程序应用中,默认情况下会假设输入数据与输出结果之间的映射关系是静态不变的。然而,在数据持续注入的过程中这一假设可能不再成立,在这种情况下历史训练模型在面对新数据时可能会失效表现出显著性能下降的现象这正是所谓的非平稳学习问题即概念漂移(concept drift)现象随着越来越多的机器学习系统直接采用流数据技术研究如何有效检测概念漂移并最小化其对性能的影响成为一个亟待解决的关键问题在机器学习领域研究人员已经确定并明确了三个主要的研究方向包括概念漂移检测、概念漂移理解以及适应性提升(drift detection drift characterization and adaptation improvement)为此开发出了一系列自动化的算法能够实时监测并应对动态变化的数据分布环境尽管这些方法能够在一定程度上提高模型在不确定条件下的适应能力但它们仅能提供一个量化指标来量化当前时间点的概念漂移程度这使得我们很难深入理解导致这种变化的根本原因及其时空分布如果自适应机制无法提升模型性能则自适应模型的行为特征将使得分析性能退化根源的过程变得更加困难因此开发人员需要具备直观展示随时间演变的数据分布特征识别导致漂移的具体样本以及优化训练样本选择与模型维护策略的能力这些需求直接催生了一种全新的可视化分析范式在这种范式下专家通过人机交互的方式参与概念漂移检测与自适应算法的设计过程从而实现了更为深入的问题探究这一研究范式的两大核心任务一是如何有效呈现随时间演变的数据分布模式二是如何将流数据可视化与其伴随的概念漂移检测及自适应算法有机融合形成一个渐进式的交互分析平台其中第一个任务的重点是如何构建能够清晰展示多维度特征演变趋势的空间表达手段第二个任务则是如何将复杂的流数据分析结果与其对应的自适应算法设计相结合形成一个高效的知识发现平台
Conclusions
该论文综述了机器学习中视觉分析技术的最新进展。
按照分析的不同阶段对这些技术进行分类时,它们被划分为三个类别:pre-mode、during-mode以及post-mode。每个类别不仅进行了详细描述,并列出了代表性任务的清单。基于对现有机器学习视觉分析研究的系统性综述,在此基础上提出了未来研究中与机器学习相关的六项研究方向。这些方向包括提升弱监督学习数据质量、实施模型构建前可解释性特征工程、在模型建立过程中进行在线训练诊断以及智能模型细化优化等措施;同时,在模型建立后需关注多模态数据理解与概念漂移分析这两个方面。
References
[1] Liu, S. X.; Wang, X. T.; Liu, M. C.; Zhu, J. Towards better analysis of machine learning models: A visual analytics perspective. Visual Informatics Vol. 1, No.1, 48–56, 2017.
[2] Choo, J.; Liu, S. X. Visual analytics for explainable deep learning. IEEE Computer Graphics and Applications Vol. 38, No. 4, 84–92, 2018.
[3] Hohman, F.; Kahng, M.; Pienta, R.; Chau, D. H. Visual analytics in deep learning: An interrogative survey for the next frontiers. IEEE Transactions on Visualization and Computer Graphics Vol. 25, No. 8, 2674–2693, 2019.
[4] Zeiler, M. D.; Fergus, R. Visualizing and understanding convolutional networks. In: Computer Vision–ECCV 2014. Lecture Notes in Computer Science, Vol. 8689. Fleet, D.; Pajdla, T.; Schiele, B.; Tuytelaars, T. Eds. Springer Cham, 818–833, 2014.
[5] Liu, S. X.; Wang, X. T.; Collins, C.; Dou, W. W.; Ouyang, F.; El-Assady, M.; Jiang, L.; Keim, D. A. Bridging text visualization and mining: A task-driven survey. IEEE Transactions on Visualization and Computer Graphics Vol. 25, No. 7, 2482–2504, 2019.
[6] Lu, Y. F.; Garcia, R.; Hansen, B.; Gleicher, M.; Maciejewski, R. The state-of-the-art in predictive visual analytics. Computer Graphics Forum Vol. 36, No. 3, 539–562, 2017.
[7] Sacha, D.; Kraus, M.; Keim, D. A.; Chen, M. VIS4ML: An ontology for visual analytics assisted machine learning. IEEE Transactions on Visualization and Computer Graphics Vol. 25, No. 1, 385–395, 2019.
[8] Marsland, S. Machine Learning: an Algorithmic Perspective. Chapman and Hall/CRC, 2015.
[9] Hung, N. Q. V.; Thang, D. C.; Weidlich, M.; Aberer, K. Minimizing efforts in validating crowd answers. In: Proceedings of the ACM SIGMOD International Conference on Management of Data, 999–1014, 2015.
[10] Liu, S.; Andrienko, G.; Wu, Y.; Cao, N.; Jiang, L.; Shi, C.; Wang, Y.-S.; Hong, S. Steering data quality with visual analytics: The complexity challenge. Visual Informatics Vol. 2, No. 4, 191–197, 2018.
[11] Kandel, S.; Parikh, R.; Paepcke, A.; Hellerstein, J. M.; Heer, J. Profiler: Integrated statistical analysis and visualization for data quality assessment. In: Proceedings of the International Working Conference on Advanced Visual Interfaces, 547–554, 2012.
[12] Alemzadeh, S.; Niemann, U.; Ittermann, T.; V¨ olzke, H.; Schneider, D.; Spiliopoulou, M.; B¨ uhler, K.; Preim, B. Visual analysis of missing values in longitudinal cohort study data. Computer Graphics Forum Vol. 39, No. 1, 63–75, 2020.
[13] Bors, C.; Gschwandtner, T.; Miksch, S. Capturing and visualizing provenance from data wrangling. IEEE Computer Graphics and Applications Vol. 39, No. 6, 61–75, 2019.
[14] Chen, C. J.; Yuan, J.; Lu, Y. F.; Liu, Y.; Su, H.; Yuan, S. T.; Liu, S. X. OoDAnalyzer: Interactive analysis of out-of-distribution samples. IEEE Transactions on Visualization and Computer Graphics doi: 10.1109/TVCG.2020.2973258, 2020.
[15] Arbesser, C.; Spechtenhauser, F.; Muhlbacher, T.; Piringer, H. Visplause: Visual data quality assessment of many time series using plausibility checks. IEEE Transactions on Visualization and Computer Graphics Vol. 23, No. 1, 641–650, 2017.
[16] Gschwandtner, T.; Erhart, O. Know your enemy: Identifying quality problems of time series data. In: Proceedings of the IEEE Pacific Visualization Symposium, 205–214, 2018.
[17] Dextras-Romagnino, K.; Munzner, T. Segmen++ tifier: Interactive refinement of clickstream data. Computer Graphics Forum Vol. 38, No. 3, 623–634, 2019.
[18]Bernard, J.; Hutter, M.; Reinemuth, H.; Pfeifer, H.; Bors, C.; Kohlhammer, J. Visual-interactive pre- processing of multivariate time series data. Computer Graphics Forum Vol. 38, No. 3, 401–412, 2019.
[19] Wang, X. M.; Chou, J. K.; Chen, W.; Guan, H. H.; Chen, W. L.; Lao, T. Y.; Ma, K.-L. A utility-aware visual approach for anonymizing multi-attribute tabular data. IEEE Transactions on Visualization and Computer Graphics Vol. 24, No. 1, 351–360, 2018.
[20] Wang, X. M.; Chen, W.; Chou, J. K.; Bryan, C.; Guan, H. H.; Chen, W. L.; Pan, R.; Ma, K.-L. GraphProtector: A visual interface for employing and assessing multiple privacy preserving graph algorithms. IEEE Transactions on Visualization and Computer Graphics Vol. 25, No. 1, 193–203, 2019.
[21] Willett, W.; Ginosar, S.; Steinitz, A.; Hartmann, B.; Agrawala, M. Identifying redundancy and exposing provenance in crowdsourced data analysis. IEEE Transactions on Visualization and Computer Graphics Vol. 19, No. 12, 2198–2206, 2013.
[22] Park, J. H.; Nadeem, S.; Mirhosseini, S.; Kaufman, A. C2A: Crowd consensus analytics for virtual colonoscopy. In: Proceedings of the IEEE Conference on Visual Analytics Science and Technology, 21–30, 2016.
[23] Park, J. H.; Nadeem, S.; Boorboor, S.; Marino, J.; Kaufman, A. E. CMed: Crowd analytics for medical imaging data. IEEE Transactions on Visualization and Computer Graphics doi: 10.1109/ TVCG.2019.2953026, 2019.
[24] Liu, S. X.; Chen, C. J.; Lu, Y. F.; Ouyang, F. X.; Wang, B. An interactive method to improve crowdsourced annotations. IEEE Transactions on Visualization and Computer Graphics Vol. 25, No.1, 235–245, 2019.
[25] Xiang, S.; Ye, X.; Xia, J.; Wu, J.; Chen, Y.; Liu, S. Interactive correction of mislabeled training data.
[26] Paiva, J. G. S.; Schwartz, W. R.; Pedrini, H.; Minghim, R. An approach to supporting incremental visual data classification. IEEE Transactions on Visualization and Computer Graphics Vol. 21, No. 1, 4–17, 2015.
[27] B¨ auerle, A.; Neumann, H.; Ropinski, T. Classifier-guided visual correction of noisy labels for image classification tasks. Computer Graphics Forum Vol. 39, No. 3, 195–205, 2020.
[28] Moehrmann, J.; Bernstein, S.; Schlegel, T.; Werner, G.; Heidemann, G. Improving the usability of hierarchical representations for interactively labeling large image data sets. In: Human-Computer Interaction. Design and Development Approaches. Lecture Notes in Computer Science, Vol. 6761. Jacko, J. A. Ed. Springer Berlin, 618–627, 2011.
[29] Khayat, M.; Karimzadeh, M.; Zhao, J. Q.; Ebert, D. S. V ASSL: A visual analytics toolkit for social spambot labeling. IEEE Transactions on Visualization and Computer Graphics Vol. 26, No. 1, 874–883, 2020.
[30] Kurzhals, K.; Hlawatsch, M.; Seeger, C.; Weiskopf, D. Visual analytics for mobile eye tracking. IEEE Transactions on Visualization and Computer Graphics Vol. 23, No. 1, 301–310, 2017.
[31] Halter, G.; Ballester-Ripoll, R.; Flueckiger, B.; Pajarola, R. VIAN: A visual annotation tool for film analysis. Computer Graphics Forum Vol. 38, No. 3, 119–129, 2019.
[32] De Rooij, O.; van Wijk, J. J.; Worring, M. MediaTable: Interactive categorization of multimedia collections. IEEE Computer Graphics and Applications Vol. 30, No. 5, 42–51, 2010.
[33] Stein, M.; Janetzko, H.; Breitkreutz, T.; Seebacher, D.; Schreck, T.; Grossniklaus, M.; Couzin, I. D.; Keim, D. A. Director’s cut: Analysis and annotation of soccer matches. IEEE Computer Graphics and Applications Vol. 36, No. 5, 50–60, 2016.
[34] H¨ oferlin, B.; Netzel, R.; H¨ oferlin, M.; Weiskopf, D.; Heidemann, G. Inter-active learning of ad-hoc classifiers for video visual analytics. In: Proceedings of the Conference on Visual Analytics Science and Technology, 23–32, 2012.
[35] Bernard, J.; Hutter, M.; Zeppelzauer, M.; Fellner, D.; Sedlmair, M. Comparing visual-interactive labeling with active learning: An experimental study. IEEE Transactions on Visualization and Computer Graphics Vol. 24, No. 1, 298–308, 2018.
[36] Bernard, J.; Zeppelzauer, M.; Lehmann, M.; M¨ uller, M.; Sedlmair, M. Towards user-centered active learning algorithms. Computer Graphics Forum Vol. 37, No. 3, 121–132, 2018.
[37] Seo, J.; Shneiderman, B. A rank-by-feature framework for interactive exploration of multidimensional data. Information Visualization Vol. 4, No. 2, 96–113, 2005.
[38] Tam, G. K. L.; Fang, H.; Aubrey, A. J.; Grant, P. W.; Rosin, P. L.; Marshall, D.; Chen, M. Visualization of time-series data in parameter space for understanding facial dynamics. Computer Graphics Forum Vol. 30, No. 3, 901–910, 2011.
[39] Krause, J.; Perer, A.; Bertini, E. INFUSE: Interactive feature selection for predictive modeling of high dimensional data. IEEE Transactions on Visualization and Computer Graphics Vol. 20, No. 12, 1614–1623, 2014.
[40] Brooks, M.; Amershi, S.; Lee, B.; Drucker, S. M.; Kapoor, A.; Simard, P. FeatureInsight: Visual support for error-driven feature ideation in text classification. In: Proceedings of the IEEE Conference on Visual Analytics Science and Technology, 105–112, 2015.
[41] Ingram, S.; Munzner, T.; Irvine, V.; Tory, M.; Bergner, S.; M¨ oller, T. DimStiller: Workflows for dimensional analysis and reduction. In: Proceedings of the IEEE Conference on Visual Analytics Science and Technology, 3–10, 2010.
[42] Ferreira, N.; Lins, L.; Fink, D.; Kelling, S.; Wood, C.; Freire, J.; Silva, C. BirdVis: Visualizing and understanding bird populations. IEEE Transactions on Visualization and Computer Graphics Vol. 17, No. 12, 2374–2383, 2011.
[43] Zhang, J. W.; E, Y. L.; Ma, J.; Zhao, Y. H.; Xu, B. H.; Sun, L. T.; Chen, J.; Yuan, X. Visual analysis of public utility service problems in a metropolis. IEEE Transactions on Visualization and Computer Graphics Vol. 20, No. 12, 1843–1852, 2014.
[44] Tzeng, F.-Y.; Ma, K.-L. Opening the black box—Data driven visualization of neural networks. In: Proceedings of the IEEE Conference on Visualization, 383–390, 2005.
[45] Liu, M. C.; Shi, J. X.; Li, Z.; Li, C. X.; Zhu, J.; Liu, S. X. Towards better analysis of deep convolutional neural networks. IEEE Transactions on Visualization and Computer Graphics Vol. 23, No. 1, 91–100, 2017.
[46] Wongsuphasawat, K.; Smilkov, D.; Wexler, J.; Wilson,
J.; Mane, D.; Fritz, D.; Krishnan, D.; Viegas, F. B.; Wattenberg, M. Visualizing dataflow graphs of deep learning models in TensorFlow. IEEE Transactions on Visualization and Computer Graphics Vol. 24, No. 1, 1–12, 2018.
[47] Rauber, P. E.; Fadel, S. G.; Falcao, A. X.; Telea, A. C. Visualizing the hidden activity of artificial neural networks. IEEE Transactions on Visualization and Computer Graphics Vol. 23, No. 1, 101–110, 2017.
[48] Strobelt, H.; Gehrmann, S.; Pfister, H.; Rush, A. M. LSTMVis: A tool for visual analysis of hidden state dynamics in recurrent neural networks. IEEE Transactions on Visualization and Computer Graphics Vol. 24, No. 1, 667–676, 2018.
[49] Ming, Y.; Cao, S.; Zhang, R.; Li, Z.; Chen, Y.; Song, Y.; Qu, H. Understanding hidden memories of recurrent neural networks. In: Proceedings of the IEEE Conference on Visual Analytics Science and Technology, 13–24, 2017.
[50] Hohman, F.; Park, H.; Robinson, C.; Polo Chau, D. H. Summit: Scaling deep learning interpretability by visualizing activation and attribution summarizations. IEEE Transactions on Visualization and Computer Graphics Vol. 26, No. 1, 1096–1106, 2020.
[51] Kahng, M.; Andrews, P. Y.; Kalro, A.; Chau, D. H. ActiVis: Visual exploration of industry-scale deep neural network models. IEEE Transactions on Visualization and Computer Graphics Vol. 24, No. 1, 88–97, 2018.
[52] Ming, Y.; Qu, H. M.; Bertini, E. RuleMatrix: Visualizing and understanding classifiers with rules. IEEE Transactions on Visualization and Computer Graphics Vol. 25, No. 1, 342–352, 2019.
[53] Wang, J. P.; Gou, L.; Zhang, W.; Yang, H.; Shen, H. W. DeepVID: Deep visual interpretation and diagnosis for image classifiers via knowledge distillation. IEEE Transactions on Visualization and Computer Graphics Vol. 25, No. 6, 2168–2180, 2019.
[54] Alsallakh, B.; Hanbury, A.; Hauser, H.; Miksch, S.; Rauber, A. Visual methods for analyzing probabilistic classification data. IEEE Transactions on Visualization and Computer Graphics Vol. 20, No. 12, 1703–1712, 2014.
[55] Bilal, A.; Jourabloo, A.; Ye, M.; Liu, X. M.; Ren, L. 2018. Do convolutional neural networks learn class hierarchy? IEEE Transactions on Visualization and Computer Graphics Vol. 24, No. 1, 152–162, 2018.
[56] Gleicher, M.; Barve, A.; Yu, X. Y.; Heimerl, F. Boxer: Interactive comparison of classifier results. Computer Graphics Forum Vol. 39, No. 3, 181–193, 2020.
[57] Ren, D. H.; Amershi, S.; Lee, B.; Suh, J.; Williams, J. D. Squares: Supporting interactive performance analysis for multiclass classifiers. IEEE Transactions on Visualization and Computer Graphics Vol. 23, No. 1, 61–70, 2017.
[58] Ahn, Y.; Lin, Y. R. FairSight: Visual analytics for fairness in decision making. IEEE Transactions on Visualization and Computer Graphics Vol. 26, No. 1, 1086–1095, 2019.
[59] Cabrera, A. A.; Epperson, W.; Hohman, F.; Kahng, M.; Morgenstern, J.; Chau, D. H.; F AIR VIS: Visual analytics for discovering intersectional bias in machine learning. In: Proceedings of the IEEE Conference on Visual Analytics Science and Technology, 46–56, 2019.
[60] Wexler, J.; Pushkarna, M.; Bolukbasi, T.; Wattenberg, M.; Viegas, F.; Wilson, J. The what-if tool: Interactive probing of machine learning models. IEEE Transactions on Visualization and Computer Graphics Vol. 26, No. 1, 56–65, 2019.
[61] Cao, K. L.; Liu, M. C.; Su, H.; Wu, J.; Zhu, J.; Liu, S. X. Analyzing the noise robustness of deep neural networks. IEEE Transactions on Visualization and Computer Graphics doi: 10.1109/TVCG.2020.2969185, 2020.
[62] Ma, Y. X.; Xie, T. K.; Li, J. D.; Maciejewski, R. Explaining vulnerabilities to adversarial machine learning through visual analytics. IEEE Transactions on Visualization and Computer Graphics Vol. 26, No. 1, 1075–1085, 2020.
[63] Liu, M. C.; Shi, J. X.; Cao, K. L.; Zhu, J.; Liu, S. X. Analyzing the training processes of deep generative models. IEEE Transactions on Visualization and Computer Graphics Vol. 24, No. 1, 77–87, 2018.
[64] Wang, J. P.; Gou, L.; Shen, H. W.; Yang, H. DQNViz: A visual analytics approach to understand deep Q-networks. IEEE Transactions on Visualization and Computer Graphics Vol. 25, No. 1, 288–298, 2019.
[65] He, W.; Lee, T.-Y.; van Baar, J.; Wittenburg, K.; Shen, H.-W. DynamicsExplorer: Visual analytics for robot control tasks involving dynamics and LSTM-based control policies. In: Proceedings of the IEEE Pacific Visualization Symposium, 36–45, 2020.
[66] Ming, Y.; Xu, P. P.; Cheng, F. R.; Qu, H. M.; Ren, L. ProtoSteer: Steering deep sequence model with prototypes. IEEE Transactions on Visualization and Computer Graphics Vol. 26, No. 1, 238–248, 2020.
[67] Ming, Y.; Xu, P. P.; Qu, H. M.; Ren, L. Interpretable and steerable sequence learning via prototypes. In: Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 903–913, 2019.
[68] Van den Elzen, S.; van Wijk, J. J. BaobabView: Interactive construction and analysis of decision trees. In: Proceedings of the IEEE Conference on Visual Analytics Science and Technology, 151–160, 2011.
[69] Yang, W. K.; Wang, X. T.; Lu, J.; Dou, W. W.; Liu, S. X. Interactive steering of hierarchical clustering. IEEE Transactions on Visualization and Computer Graphics doi: 10.1109/TVCG.2020.2995100, 2020.
[70] Liu, M. C.; Liu, S. X.; Zhu, X. Z.; Liao, Q. Y.; Wei, F. R.; Pan, S. M. An uncertainty-aware approach for exploratory microblog retrieval. IEEE Transactions on Visualization and Computer Graphics Vol. 22, No. 1, 250–259, 2016.
[71] Cavallo, M.; Demiralp, C. Clustrophile 2: Guided visual clustering analysis. IEEE Transactions on Visualization and Computer Graphics Vol. 25, No. 1, 267–276, 2019.
[72] Das, S.; Cashman, D.; Chang, R.; Endert, A. BEAMES: Interactive multimodel steering, selection, and inspection for regression tasks. IEEE Computer Graphics and Applications Vol. 39, No. 5, 20–32, 2019.
[73] Gorg, C.; Liu, Z. C.; Kihm, J.; Choo, J.; Park, H.; Stasko, J. Combining computational analyses and interactive visualization for document exploration and sensemaking in jigsaw. IEEE Transactions on Visualization and Computer Graphics Vol. 19, No. 10, 1646–1663, 2013.
[74] Liu, S.; Wang, X.; Chen, J.; Zhu, J.; Guo, B. TopicPanorama: A full picture of relevant topics. In: Proceedings of the IEEE Conference on Visual Analytics Science and Technology, 183–192, 2014.
[75] Dou, W.; Cho, I.; ElTayeby, O.; Choo, J.; Wang, X.; Ribarsky, W.; DemographicVis: Analyzing demographic information based on user generated content. In: Proceedings of the IEEE Conference on Visual Analytics Science and Technology, 57–64,2015.
[76] Kosara, R.; Bendix, F.; Hauser, H. Parallel sets: Interactive exploration and visual analysis of categorical data. IEEE Transactions on Visualization and Computer Graphics Vol. 12, No. 4, 558–568, 2006.
[77] Berger, M.; McDonough, K.; Seversky, L. M. Cite2vec: Citation-driven document exploration via word embeddings. IEEE Transactions on Visualization and Computer Graphics Vol. 23, No. 1, 691–700, 2017.
[78] Hong, F.; Lai, C.; Guo, H.; Shen, E.; Yuan, X.; Li. S. FLDA: Latent Dirichlet allocation based unsteady flow analysis. IEEE Transactions on Visualization and Computer Graphics Vol. 20, No.12, 2545–2554, 2014.
[79] Blumenschein, M.; Behrisch, M.; Schmid, S.; Butscher, S.; Wahl, D. R.; Villinger, K.; Renner, B.; Reiterer, H.; Keim, D. A. SMARTexplore: Simplifying high-dimensional data analysis through a table-based visual analytics approach. In: Proceedings of the IEEE Conference on Visual Analytics Science and Technology, 36–47, 2018.
[80] Havre, S.; Hetzler, E.; Whitney, P.; Nowell, L. ThemeRiver: Visualizing thematic changes in large document collections. IEEE Transactions on Visualization and Computer Graphics Vol. 8, No. 1, 9–20, 2002.
[81] Liu, S.; Zhou, M. X.; Pan, S.; Song, Y.; Qian, W.; Cai, W.; Lian, X. TIARA: Interactive, topic-based visual text summarization and analysis. ACM Transactions on Intelligent Systems and Technology Vol. 3, No.2, Article No. 25, 2012.
[82] Wei, F. R.; Liu, S. X.; Song, Y. Q.; Pan, S. M.; Zhou, M. X.; Qian, W. H.; Shi, L.; Tan, L.; Zhang, Q. TIARA: A visual exploratory text analytic system. In: Proceedings of the 16th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 153–162, 2010.
[83] Cui, W. W.; Liu, S. X.; Tan, L.; Shi, C. L.; Song, Y. Q.; Gao, Z. K.; Qu, H. M.; Tong, X. TextFlow: Towards better understanding of evolving topics in text. IEEE Transactions on Visualization and Computer Graphics Vol. 17, No. 12, 2412–2421, 2011.
[84] Teh, Y. W.; Jordan, M. I.; Beal, M. J.; Blei, D. M. Hierarchical dirichlet processes. Journal of the American Statistical Association Vol. 101, No. 476, 1566–1581, 2006.
[85] Xu, P. P.; Wu, Y. C.; Wei, E. X.; Peng, T. Q.; Liu, S. X.; Zhu, J. J.; Qu. H. Visual analysis of topic competition on social media. IEEE Transactions on Visualization and Computer Graphics Vol. 19, No. 12, 2012–2021, 2013.
[86] Sun, G. D.; Wu, Y. C.; Liu, S. X.; Peng, T. Q.; Zhu, J. J. H.; Liang, R. H. EvoRiver: Visual analysis of topic coopetition on social media. IEEE Transactions on Visualization and Computer Graphics Vol. 20, No. 12, 1753–1762, 2014.
[87] Wang, X.; Liu, S.; Chen, Y.; Peng, T.-Q.; Su, J.; Yang, J.; Guo, B. How ideas flow across multiple social groups. In: Proceedings of the IEEE Conference on Visual Analytics Science and Technology, 51–60, 2016.
[88] Cui, W. W.; Liu, S. X.; Wu, Z. F.; Wei, H. How hierarchical topics evolve in large text corpora. IEEE Transactions on Visualization and Computer Graphics Vol. 20, No. 12, 2281–2290, 2014.
[89] Wang, X. T.; Liu, S. X.; Song, Y. Q.; Guo, B. N. Mining evolutionary multi-branch trees from text streams. In: Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 722–730, 2013.
[90] Liu, Z.; Wang, Y.; Dontcheva, M.; Hofiman, M.; Walker, S.; Wilson, A. Patterns and sequences: Interactive exploration of clickstreams to understand common visitor paths. IEEE Transactions on Visualization and Computer Graphics Vol. 23, No.1, 321–330, 2017.
[91] Guo, S. N.; Xu, K.; Zhao, R. W.; Gotz, D.; Zha, H. Y.; Cao, N. EventThread: Visual summarization and stage analysis of event sequence data. IEEE Transactions on Visualization and Computer Graphics Vol. 24, No. 1, 56–65, 2018.
[92] Guo, S. N.; Jin, Z. C.; Gotz, D.; Du, F.; Zha, H. Y.; Cao, N. Visual progression analysis of event sequence data. IEEE Transactions on Visualization and Computer Graphics Vol. 25, No. 1, 417–426, 2019.
[93] Andrienko, G.; Andrienko, N.; Hurter, C.; Rinzivillo, S.; Wrobel, S. Scalable analysis of movement data for extracting and exploring significant places. IEEE Transactions on Visualization and Computer Graphics Vol. 19, No. 7, 1078–1094, 2013.
[94] Chu, D.; Sheets, D. A.; Zhao, Y.; Wu, Y.; Yang, J.; Zheng, M.; Chen, G. Visualizing hidden themes of taxi movement with semantic transformation. In: Proceedings of the IEEE Pacific Visualization Symposium, 137–144, 2014.
[95] Zhou, Z. G.; Meng, L. H.; Tang, C.; Zhao, Y.; Guo, Z. Y.; Hu, M. X.; Chen, W. Visual abstraction of large scale geospatial origin-destination movement data. IEEE Transactions on Visualization and Computer Graphics Vol. 25, No. 1, 43–53, 2019.
[96] Krueger, R.; Thom, D.; Ertl, T. Semantic enrichment of movement behavior with foursquare— A visual analytics approach. IEEE Transactions on Visualization and Computer Graphics Vol. 21, No. 8, 903–915, 2015.
[97] Chen, S. M.; Yuan, X. R.; Wang, Z. H.; Guo, C.; Liang, J.; Wang, Z. C.; Zhang, X.; Zhang, J. Interactive visual discovering of movement patterns from sparsely sampled geo-tagged social media data. IEEE Transactions on Visualization and Computer Graphics Vol. 22, No. 1, 270–279, 2016.
[98] Thom, D.; Bosch, H.; Koch, S.; W¨ orner, M.; Ertl, T. Spatiotemporal anomaly detection through visual analysis of geolocated Twitter messages. In: Proceedings of the IEEE Pacific Visualization Symposium, 41–48, 2012.
[99] Bosch, H.; Thom, D.; Heimerl, F.; Puttmann, E.; Koch, S.; Kruger, R.; Worner, M.; Ertl, T. ScatterBlogs2: real-time monitoring of microblog messages through user-guided filtering. IEEE Transactions on Visualization and Computer Graphics Vol. 19, No. 12, 2022–2031, 2013.
[100] Liu, S. X.; Yin, J. L.; Wang, X. T.; Cui, W. W.; Cao, K. L.; Pei, J. Online visual analytics of text streams. IEEE Transactions on Visualization and Computer Graphics Vol. 22, No. 11, 2451–2466, 2016.
[101] Wu, Y. C.; Chen, Z. T.; Sun, G. D.; Xie, X.; Cao, N.; Liu, S. X.; Cui, W. StreamExplorer: A multi-stage system for visually exploring events in social streams. IEEE Transactions on Visualization and Computer Graphics Vol. 24, No. 10, 2758–2772, 2018.
[102] Lee, C.; Kim, Y.; Jin, S.; Kim, D.; Maciejewski, R.; Ebert, D.; Ko, S. A visual analytics system for exploring, monitoring, and forecasting road traffic congestion. IEEE Transactions on Visualization and Computer Graphics Vol. 26, No. 11, 3133–3146, 2020.
[103] Foulds, J.; Frank, E. A review of multi-instance learning assumptions. The Knowledge Engineering Review Vol. 25, No. 1, 1–25, 2010.
[104] Zhou, Z. H. Multi-instance learning from supervised view. Journal of Computer Science and Technology Vol. 21, No. 5, 800–809, 2006.
[105] Baltrusaitis, T.; Ahuja, C.; Morency, L. P. Multimodal machine learning: A survey and taxonomy. IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 41, No. 2, 423–443, 2019.
[106] Lu, J.; Batra, D.; Parikh, D.; Lee, S. ViLBERT: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. In: Proceedings of the Advances in Neural Information Processing Systems, 13–23, 2019.
