t-sne-白红宇

t-sne

阅读量：5157 次

发布时间：2019-06-13

本文共 5618 字，大约阅读时间需要 18 分钟。

http://www.datakit.cn/blog/2017/02/05/t_sne_full.html

t-SNE完整笔记

2017年02月05日字数:26531

t-SNE(t-distributed stochastic neighbor embedding)是用于降维的一种机器学习算法，是由 Laurens van der Maaten 和 Geoffrey Hinton在08年提出来。此外，t-SNE 是一种非线性降维算法，非常适用于高维数据降维到2维或者3维，进行可视化。

t-SNE是由SNE(Stochastic Neighbor Embedding, SNE; Hinton and Roweis, 2002)发展而来。我们先介绍SNE的基本原理，之后再扩展到t-SNE。最后再看一下t-SNE的实现以及一些优化。

1.SNE

1.1基本原理

SNE是通过仿射(affinitie)变换将数据点映射到概率分布上，主要包括两个步骤：

SNE构建一个高维对象之间的概率分布，使得相似的对象有更高的概率被选择，而不相似的对象有较低的概率被选择。

SNE在低维空间里在构建这些点的概率分布，使得这两个概率分布之间尽可能的相似。

我们看到t-SNE模型是非监督的降维，他跟kmeans等不同，他不能通过训练得到一些东西之后再用于其它数据（比如kmeans可以通过训练得到k个点，再用于其它数据集，而t-SNE只能单独的对数据做操作，也就是说他只有fit_transform，而没有fit操作）

1.2 SNE原理推导

SNE是先将欧几里得距离转换为条件概率来表达点与点之间的相似度。具体来说，给定一个N个高维的数据 x₁,...,x_n

这里的有一个参数是σ_i

那对于低维度下的y_i

同样，设定q_i_∣_i=0

如果降维的效果比较好，局部特征保留完整，那么 p_i_∣_j=q_i∣j

这里的P_i

思考:了解了基本思路之后，你会怎么选择σ

下面我们开始正式的推导SNE。首先不同的点具有不同的σ_i

这里的H(P_i)

困惑度可以解释为一个点附近的有效近邻点个数。SNE对困惑度的调整比较有鲁棒性，通常选择5-50之间，给定之后，使用二分搜索的方式寻找合适的σ

那么核心问题是如何求解梯度了,目标函数等价于∑∑−plog(q)

在初始化中，可以用较小的σ

这里的Y^(t)

此外，在初始优化的阶段，每次迭代中可以引入一些高斯噪声，之后像模拟退火一样逐渐减小该噪声，可以用来避免陷入局部最优解。因此，SNE在选择高斯噪声，以及学习速率，什么时候开始衰减，动量选择等等超参数上，需要跑多次优化才可以。

思考:SNE有哪些不足？面对SNE的不足，你会做什么改进？

2.t-SNE

尽管SNE提供了很好的可视化方法，但是他很难优化，而且存在”crowding problem”(拥挤问题)。后续中，Hinton等人又提出了t-SNE的方法。与SNE不同，主要如下:

使用对称版的SNE，简化梯度公式

低维空间下，使用t分布替代高斯分布表达两点之间的相似度

t-SNE在低维空间下使用更重长尾分布的t分布来避免crowding问题和优化问题。在这里，首先介绍一下对称版的SNE，之后介绍crowding问题，之后再介绍t-SNE。

2.1 Symmetric SNE

优化pi∣j

C = K L (P ∣∣ Q) = \sum i \sum j p i, j log p i j q i j

这里的pii

p i j = exp ( - ∣∣ x i - x j ∣ ∣ 2 / 2 σ 2 ) \sum k \neq l exp ( - ∣∣

这种表达方式，使得整体简洁了很多。但是会引入异常值的问题。比如xi

思考: 对于异常值，你会做什么改进？pi

为了解决这个问题，我们将联合概率分布定义修正为: pij=pi∣j+pj∣i2

δ C δ y i = 4 \sum j ( p i j - q i j ) ( y i - y j )

实验中，发现对称SNE能够产生和SNE一样好的结果，有时甚至略好一点。

2.2 Crowding问题

拥挤问题就是说各个簇聚集在一起，无法区分。比如有一种情况，高维度数据在降维到10维下，可以有很好的表达，但是降维到两维后无法得到可信映射，比如降维如10维中有11个点之间两两等距离的，在二维下就无法得到可信的映射结果(最多3个点)。进一步的说明，假设一个以数据点xi

show png

从上图可以看到，随着维度的增大，大部分数据点都聚集在m维球的表面附近，与点xi

怎么解决crowding问题呢？

Cook et al.(2007) 提出一种slight repulsion的方式，在基线概率分布(uniform background)中引入一个较小的混合因子ρ

2.3 t-SNE

对称SNE实际上在高维度下另外一种减轻”拥挤问题”的方法：在高维空间下，在高维空间下我们使用高斯分布将距离转换为概率分布，在低维空间下，我们使用更加偏重长尾分布的方式来将距离转换为概率分布，使得高维度下中低等的距离在映射后能够有一个较大的距离。

show png

我们对比一下高斯分布和t分布(如上图,code见probability/distribution.md), t分布受异常值影响更小，拟合结果更为合理，较好的捕获了数据的整体特征。

使用了t分布之后的q变化，如下:

q i j = ( 1 + ∣∣ y i - y j ∣ ∣ 2 ) - 1 \sum k \neq l ( 1 + ∣∣ y i -

此外，t分布是无限多个高斯分布的叠加，计算上不是指数的，会方便很多。优化的梯度如下:

δ C δ y i = 4 \sum j ( p i j - q i j ) ( y i - y j ) ( 1 + ∣∣ y i -

t-sne的有效性，也可以从上图中看到：横轴表示距离，纵轴表示相似度, 可以看到，对于较大相似度的点，t分布在低维空间中的距离需要稍小一点；而对于低相似度的点，t分布在低维空间中的距离需要更远。这恰好满足了我们的需求，即同一簇内的点(距离较近)聚合的更紧密，不同簇之间的点(距离较远)更加疏远。

总结一下，t-SNE的梯度更新有两大优势：

对于不相似的点，用一个较小的距离会产生较大的梯度来让这些点排斥开来。

这种排斥又不会无限大(梯度中分母)，避免不相似的点距离太远。

2.4 算法过程

算法详细过程如下：

Data: X=x1,...,xn

计算cost function的参数：困惑度Perp

优化参数: 设置迭代次数T，学习速率η

目标结果是低维数据表示 YT=y1,...,yn

开始优化
- 计算在给定Perp下的条件概率pj∣i
- 令 pij=pj∣i+pi∣j2n
- 用 N(0,10−4I)
- 迭代，从 t = 1 到 T，做如下操作:
  - 计算低维度下的 qij
  - 计算梯度（参见上面的公式）
  - 更新 Yt=Yt−1+ηdCdY+α(t)(Yt−1−Yt−2)
- 结束