Visualizing Clustering 是指将数据作某种处理之后, 作出的图像可以由人直接分辨出分类模式。 数据挖掘研究院
最最简单的方法,就是对原始数据直接画出直方图(histograms),当然只适用
f(x)=frac{1}{nh} sum_{i=1}^{n}K(frac{x-X_i}{h})
而对于二维的情况上面的公式则变成:
f(x)=frac{1}{nh_xh_y}sum_{i=1}{n}K(frac{x-X_i}{h_x},frac{y-Y_i}{h_y})
而对于二维以上的情况,就不能直接使用直方图的方法了。简单的,可以使用散点图(scatterplot),即把没两个变量组成一对,然后分别画出它们的分布图
PCA的更一般的方法是projection pursuit,因为实际上PCA就是一种通过投影降维的方法。Projection Pursuit一般需要将原始的p维数据投影到一维或二维空间里。如果要投影到一维上去,那么需要找出一个适合的投影向量,如果是二维,则需要一个投影平面。衡量投影的效果,需要一个索引函数(index function) ,在PCA里使用的是样本的偏差。选定索引函数后,接下来要做的就是如何选定合适的投影向量(平面)而使索引函数达到最优(大/小)。所以实际的聚类效果取决于:1.索引函数的选择;2.优化算法。 数据挖掘实验室
最后一种方法是multidimensional scaling(MDS,多维度的缩放),狭义的定义是寻找低维空间,在该空间里的点一一对应于原始的数据点,而各点之间的距离(一般用欧氏距离),尽量跟原空间里各点间的相异程度一致。适用于原始数据的距离矩阵已知的情况下。对这个方法的具体实现我同样不理解。如何构建低维空间的坐标系呢?难道是根据相互间的距离一个点一个点的画到低维空间里?

