1. 方法简介
相似优先比是模糊性度量的一种形式,它是以成对的样本与一个固定的样本作比较,确定哪一个与固定样本更相似,从而选择与固定样本相似程度较大者。
假定样本xi和xj与固定样本xk进行比较,其相似优先比Rij 必须满足如下要求: 数据挖掘研究院
(1) 若Rij在[0.5, 1.0]之间,则表示xi比xj优先。
(2) 若Rij在[0.0, 0.5]之间,则表示xj比xi优先。
(3) 在极值情形下有三种可能:如果Rij =1,则表示xi比xj显然优先;如果Rij =0,则表示xj比xi显然优先;如果Rij =0.5,则xi和xj不分伯仲,优先无法确定。
在模糊优先比分析中,一般采用海明(Harming)距离作为相似优先比中Rij的测度。如对样本xi和样本xj与固定样本xk之间进行比较,海明距离可定义为
Rji = 1-Rij
式中 dki =|xk-xi |,dkj =|xk-xj |,接下来,对给定的一样本集合X={x1, x2, …, xn }和固定样本xk ,令任意xi 、xj ÎX和xk作比较,即计算两两样本间的相似优先比,从而得到模糊相关矩阵:
R=(rij)
建立模糊相似矩阵之后,由l水平集选出相似样本,亦即在相似矩阵中,从大到小地选定l值,以在l值下降过程中首先到达的除主对角线元素外全行都为1的那一行的样本最相似,然后删除矩阵相应的行和列,并降低l水平值,继续寻找。依此类推,直至截距处理完毕。
一般情形下,若每个样本有m个因素,则对每一因素都有一个模糊相似矩阵,所以,每一样本的每一因素都将产生一个反映相似程度的序号值,最后将每一样本各个因素的序号值相加,其结果便是该样本与固定样本相似程度的综合反映。
样本的序号值越小,该样本与固定样本就越相似,但严格地说,各个因素对样本的影响程度是不一样的,因此有必要给各个因素赋予一定的权重,这样得到的结果将更符合实际情况。所以当,用户在对有关因素影响的轻重程度有比较大的把握,或在分析中需突出某个因素时,可对各个因素进行加权处理以达到更好的分析效果。
2. DPS平台的操作示例
数据的输入编辑格式是每一行为一个样本,每一列为一个变量, 最右边的一列为已知样本的代码(用1表示)和待识别样本的代码(用0表示),并将数据和待识别样本一起定义成数据块。
在菜单下选择“模糊数学®相似优先比分析”,执行该项功能后系统将输出分析结果。结果包括待识别样本与各样本间的海明距离以及待识别样本与其它样本各个因素的模糊优先比矩阵R,最后给出待判样品对各已知样品各变量相似程度和待判样品对各已知样品的优先比值,并按顺序排列。
例如,高素华(1981)对日本柑橘主要产地之一福冈和我国合肥、武汉、长沙、桂林、温州和成都等7地柑橘生长的农业气候相似程度进行了分析,选用各地年均温、年降水量、年日照时数、年极端最低气温和1月均温作为相似因子。现运用模糊相似优先比方法在DPS平台上进行分析。其数据输入、编辑整理和数据块的定义如图30-4所示,
|
地点 |
年均温 |
年降水量 |
年日照时数 |
年最低气温 |
1月均温 |
识别标识 |
|
合肥 |
15.7 |
970 |
2309 |
-20.6 |
1.9 |
1 |
|
武汉 |
16.3 |
1260 |
2085 |
-17.3 |
2.8 |
1 |
|
上海 |
15.7 |
1129 |
2039 |
-9.4 |
3.3 |
1 |
|
长沙 |
17.2 |
1422 |
1726 |
-9.5 |
4.6 |
1 |
|
桂林 |
18.8 |
1874 |
1709 |
-4.9 |
8.0 |
1 |
|
温州 |
17.9 |
1698 |
1846 |
-4.5 |
7.5 |
1 |
|
成都 |
16.3 |
976 |

