ChinaVis2016见闻与所思

前言

每年都争取出去参加一次跨界的知识学习,去年是CCL,今年是ChinaVis。ChinaVis2016(7月21日-23日,湖南长沙)是国内可视化与可视化分析领域的专业会议,今年是第三届。去年的时候开始关注,没能去参加,今年终于排上了日程并说走就走。站在可视化领域的外围看这个世界,一直都不是很清晰,所以有机会能够以一个外行的身份过来感受一下这个圈子的氛围,是件令人兴奋的事情。下面整理的内容无法面面俱到,有些内容甚至都是大会以外的,但是希望把我的几个关注点上学习到的内容作一个简单的总结,如有不正确之处,希望得到指正。

理解可视化与交互

可视化的概念不用说了,但“可视化分析”一词,我是至今才有一个稍微清晰一点的认识,很是惭愧。所谓分析,一般可以拆解为不通的步骤,从数据的获取开始,可以往后写一堆。作为一个GIS人,在我以前的理解里,可视化呈现的是一种结果,所以一直对“可视化分析”这个词的科学性持质疑态度。

实际上,不同领域里,对此可以有不同的解释。例如,清华大学的朱军在谈到交互式机器学习与可视化的话题时,交互式机器学习在如下环节中都需要可视化的协助:

  1. 数据预处理时可以用到可视化
  2. 学习过程里可以可视化,因为机器学习本身黑箱
  3. 对机器学习评价也需要可视化交互式界面

总体来说,许多机器学习方法难以解释和理解,可视化可以帮助专家理解模型,一方面要促进更好地使用机器学习,另一方面,需要知道怎么作改进。因此,可视化除了看结果,更多地融入到计算或学习过程中的“可视化交互”,通过人与机的交互,来改进中间环节和最终效果,来让结果更work,或在work的道路上走更少的弯路。除此之外,有几个词是值得记住的,一个是visual reasoning、

此外,提到的两个清华大学关于话题图可视化交互方面的工作:一个是:Scalable Inference for Logistic-Normal Topic Models,虽然已是三年前的工作,但那个主题节点图依旧令人印象深刻。另一个是关于马航事件的话题分析的视频,可以点进去看看。清华在TVCG16和ICML16上有个关于卷积神经网络的可视化交互,值得CNN热衷者们参考。

可视化分析的评估

宾大的张小龙教授在谈到STU(情景、任务和用户)话题时提到我们在评估一个新的交互方式时要考量的几个要点:

  1. 重要性(importance),例如所提出问题重要在什么地方以及可能的解决思路;考虑我们的新技术方法的差异性等。
  2. 未解决的问题(problem not previously solved):The larger and more diverse the STU context is, the stronger the claim to the importance of a solution.
  3. 普遍性(generality):The greater the diversity and the larger the number of demonstrated solutions, the stronger the generality claim.
  4. 此外,还要考量降低问题求解的难度、整合的力量、拓展性、扩大参与等。

此外,由于认知特性(心智模型、思维定势、归因习惯等)决定了设计研究人员和用户想要的的确不一样,必须深入地实地调查,了解用户(知识背景、技术背景)、了解行为(任务行为、系统使用行为)、了解背景(各种约束条件)。但是深入了解人的行为习惯真的很难!所以通常的做法,首先是要与用户“厮守”在一起,其次是需要专业的眼睛来观察用户行为(术业有专攻)。

数据可视化的研发机遇

这里边可以讨论的话题较多,有人将这个问题分为4个部分,那出来参考下:交互智能可视分析基础理论与方法、面向科学研究的智能交互计算、真实应用场景下的态势感知与临场决策、面向行业的通用可视化软件与组建库研发。

有观点认为人工智能的每个环节(数据获取、数据清洗、数据模型、数据分析、预测仿真)都与可视化融合。技术上则不乏一站式的数据分析平台,例如Dataiku、IBM DSW等都提供了模块化的分析组件。另外,观察下来ECharts、DataV、D3,都是可视化研究领域使用较多的第三方库。

各种玩坏了的方法

这些基本平时都看的很多,各类柱状图、折线图、饼图、散点图、气泡图、雷达图、K线图、和弦图,变化莫测。其他各种方法已无法例举,但作为外行想谈一谈平行坐标法。

GIS里对于空间的维度有独特的理解,而平行坐标的维度,基本可以理解为属性维度。多维数据的可视化,最典型的方法是平行坐标。2008年徐永红的《平行坐标原理与研究现状综述》一文讲解了平行坐标的前世今身。平行坐标最早由法国数学家Ocane在1885年提出,此时的平行坐标只限于二维情况;1962年Zirakzadeh提出一种n维射影空间到二维平面的变换,并提议将该方法用于图解多维问题;1985年Inselberg提出多维情况下的平行坐标,并将其应用于计算几何;1990年美国统计学家 Wegman提议将平行坐标应用于多元数据分析,平行坐标开始走进多元统计领域。

平行坐标常用于多维属性的可视化,初步的理解可以参考这篇文章,此次会议也有相当多的论文或多或少地用到了这个方法及其扩展。为了克服传统的笛卡尔直角坐标系容易耗尽空间、难以表达三维以上数据的问题,平行坐标将高维数据的各个变量用一系列相互平行的坐标轴表示,变量值对应轴上位置。为了反映变化趋势和各个变量间相互关系,往往将描述不同变量的各点连接成折线。所以平行坐标图的实质是将高维欧式空间的一个点映射到2维平面上的一条曲线。实际上,平行坐标图可以表示超高维数据。平行坐标的一个显著优点是其具有良好的数学基础,其射影几何解释和对偶特性使它很适合用于可视化数据分析。比较通俗的使用案例如下图:

案例:基于主题模型的交互式文档聚类

由于个人关注文本类的分析更多一些,因此选了这篇不是本次会议但还比较能说明可视化思路的工作稍微介绍下。

Topic Modeling类的可视化表达,例如LDA被广泛应用。一些工作利用主题模型生成的“文档-主题”和“主题-词语”的分布进行可视化,并试图解释其关系。然而,主题模型生成结果往往不能令人满意,因此如何通过交互手段来干预模型的计算,提高模型的准确率,引发了更多的研究,主要包含“交互式聚类”,例如Hanseung Lee在2012年的一个工作里提出的iVisClustering,作者提出的技术思路如下图:

考虑如下因素,作者认为引入可视化交互,能够帮助聚类得到更好的结果:
1. 聚类方法很多,每种方法都有不同的目标函数,并生成不同的类簇结构,因此方法的选择是一个挑战。
2. 即便方法选择恰当,聚类本身也会产生多种不同的结果,而这些结果可能并不能反映真实情况。这是低级特征和高级人类认知之间的语义鸿沟。

在上面的系统图中包含了几个可视化的组成部分:

  1. Cluster-Relation视图:基于图的聚类结果可视化。
  2. Cluster-Tree视图:根据用户定义的主题维护层次聚类结构。
  3. Clust-Summary视图:视图1的简化版。
  4. Parallel-Coordinates视图:每一个文档的主题分布情况。
  5. Term-Weight视图:每个主题的术语权重值,可以修改数值。
  6. Document-Tracer视图:是一个热度图,用于表示类簇之间的转换或过渡。当操作Term-Weight视图中的主题词分布后,会根据LDA获得新的聚类结果。而Document-Tracer视图则会反映有多少文档因此而从一个类簇被移到了另一个类簇。
  7. Document视图:显示原始的文档,其中关键词高亮。

总的来说是使用LDA对文档进行主题建模,用最具代表性的关键词为每个集群输出一个摘要,并且使用平行坐标等方法来可视化软聚类的结果,上述操作的价值至少有如下这些:

  1. 通过基于图的表示方法来可视化类的相似度和数据项之间的相关性。
  2. 通过可视化的方式,可以调整关键词,以便更好地表征每个类簇。
  3. 使用树形结构构造了一个层次聚类,系统提供了类簇层面的交互(例如求子簇、移除不重要的簇、合并相似簇、将簇移动到树形结构的任意其他节点等)。
  4. 提供文档级的交互:例如移动错误归类的文档到其他簇、删除无用文档等。

大会传递的可视化前沿

大会一般都多少受商业因素影响,另外社会参与程度也决定了论文和报告的质量。但前沿报告序列中的内容可以大致观其研究范围和趋势。

  1. 这次的技术前沿报告中的,有关于大规模流场数据可视化的、关于人工智能2.0的,关于深度学习的、关于社交用户行为可视化的,也有企业来讲产业布局的。
  2. 城市大数据可视化分析、安全数据可视化分析也是讨论较多的行业方向。
  3. 地图、GIS在数据可视化中的作用似乎无处不在,但GIS的融入程度还可以更高一些,或者说可以有更多合作。
  4. 可视化作为一个技术领域,并非传统科学,所以与行业领域的结合是可视化深度发展的必经之路。
  5. 超级计算机,例如中科院的计算能力、天河二号超级计算机系统等。这方面知之甚少,暂时无法更多展开。

一些感想

GIS融入CS主流

很早之前谈到信息技术的特点时有句话,说GIS将逐渐融入计算机技术的主流。这句话现如今正越来越多地得到印证。就此次会议来说,特邀报告里有朱庆教授布道“测绘地理信息技术的演进和发展”;北大的刘瑜主持了一个Panel叫作“交通与城市大数据可视化分析面临的发展和挑战”;地大的刘刚主持了一个Special Session叫做“城市交通大数据可视分析”;也许谈论报告的实际内容在GIS领域未必是主流板块,但作为可视化交叉界的受重视程度来看,“时空数据”一体的可视化,已成为公认的模式之一。

上帝视角

可视化作为一种解决科学问题的方法与技术手段,若有所突破必然要应用于具体领域知识,因此可以站在上帝视角说各行业的领域专家都需要可视化,不如说可视化依赖领域应用而发展。这点与GIS的发展路径类似。

若干遗憾

最早从官网的宣传看,这个会议不会偏向学术界,但直到会议议程的出现,依然还是学术界一边倒的态势,即便有360安全、海云数据等企业的参与,以及提供数据并组织了很赞的数据可视分析挑战赛。但实际感受,距离会议主旨中“促进中国可视化与可视分析领域产、学、研、用协同发展新生态的形成”的实现,还有不小的距离。其实反观其他学科,也许可视化领域算是做的还不错的,产学研的脱节应该属于通病。