SNE与t-SNE降维算法理解

1. SNE概要

数据降维,大体分为线性方法和非线性方法。其中线性方法例如PCA和LDA,而非线性方法又有保留局部特征、基于全局特征等方法。有人整理了一张分类图,下面这张图从网上引用而来:

相比于其他降维方法,t-SNE是近年比较火热的一种高维数据可视化技术,能够通过降维,将高维数据降维并给出二维或三维的坐标点,从而可以在人能够轻易理解的平面或立体空间内将数据可视化出来。这个方法是SNE的变种,SNE是Hinton在2002年提出来的方法。Stochastic Neighbor Embedding,好吧,又是embedding。目标是将高维数据映射到低维后,尽量保持数据点之间的空间结构,这样在高维空间里距离较远的点,在低维空间中依然保持较远的距离。在传统的方法中,PCA和MDS是线性技术,用于保持相距较远的数据点之间的低维表示。Maaten将t-SNE的降维结果与其他7种降维方法的结果,在5种不同的数据集中作了对比。

1.1 高维数据的相似度概率分布

SNE将数据点之间高维的欧氏距离转换为表示相似度的条件概率,即用条件概率\(p(j|i)\)表示点\(x_j\)到点\(x_i\)的相似度,这个含义可以理解为:若以\(x_i\)为中心的高斯分布来选取邻居,则\(x_i\)选择\(x_j\)作为自己邻居的概率是\(p(j|i)\)。若数据点相距较近,则\(p(j|i)\)较大,相反若数据点相距非常远,\(p(j|i)\)则可以接近无穷小。条件概率\(p(j|i)\)定义如下:

继续阅读SNE与t-SNE降维算法理解

ChinaVis2016见闻与所思

前言

每年都争取出去参加一次跨界的知识学习,去年是CCL,今年是ChinaVis。ChinaVis2016(7月21日-23日,湖南长沙)是国内可视化与可视化分析领域的专业会议,今年是第三届。去年的时候开始关注,没能去参加,今年终于排上了日程并说走就走。站在可视化领域的外围看这个世界,一直都不是很清晰,所以有机会能够以一个外行的身份过来感受一下这个圈子的氛围,是件令人兴奋的事情。下面整理的内容无法面面俱到,有些内容甚至都是大会以外的,但是希望把我的几个关注点上学习到的内容作一个简单的总结,如有不正确之处,希望得到指正。

理解可视化与交互

可视化的概念不用说了,但“可视化分析”一词,我是至今才有一个稍微清晰一点的认识,很是惭愧。所谓分析,一般可以拆解为不通的步骤,从数据的获取开始,可以往后写一堆。作为一个GIS人,在我以前的理解里,可视化呈现的是一种结果,所以一直对“可视化分析”这个词的科学性持质疑态度。

实际上,不同领域里,对此可以有不同的解释。例如,清华大学的朱军在谈到交互式机器学习与可视化的话题时,交互式机器学习在如下环节中都需要可视化的协助:

  1. 数据预处理时可以用到可视化
  2. 学习过程里可以可视化,因为机器学习本身黑箱
  3. 对机器学习评价也需要可视化交互式界面

继续阅读ChinaVis2016见闻与所思

时空平稳性的概念与STARMA模型

时空相关性

时空相关性反映了序列对时空的依赖,一般会讨论到时空自相关性和时空偏相关性两个概念。

时空平稳性

时空平稳性(Space-time Stationarity)的概念,是说如果是平稳的,那意味着在时空范畴内不存在任何趋势或者模式。在统计上,表现为均值、方差、协方差等不随时间和空间的变化而变化。在实际应用中,很少能够满足统计上绝对的不变值,因此只要求近似为常数即可认为时空序列平稳。

因此,对于时空平稳的时空变量来说,

时空非平稳性,可能是大尺度的趋势,也可能是局部效应。

  1. 大尺度的非平稳:描述均值的总体变化。通常称为“一阶”效应。
  2. 局部的非平稳:是对时时空相关局部特征的描述。通常称为“二阶”效应。对于时间序列分析,一般用自相关移动平均描述因时间依赖造成的局部效应;对于空间数据分析,一般用空间自相关描述其局部效应。

STARMA模型

严格说来,STARMA模型是由时间序列模型模型ARMA(自回归-移动平均)向空间层面扩展而来。该模型在时间序列的基础上,增加考虑了空间相邻位置的影响,因此从时空结合角度讲,更为准确。模型有两个基本假设:

  1. 序列是平稳的
  2. 随机误差符合正态分布

因此,随之而来的处理方式中,首先要解决序列的平稳化问题,过程中需要通过观察空间自相关系数来发现非平稳的存在,并可能会用到各种手段来实现平稳化,例如进行周期性差分处理。