余弦夹角 和 欧氏距离 Jaccard相似系数和皮尔逊相关系数

我们把两组样本近似线性数据的距离称为相关系数。相关系数是衡量相似度的主要指标之一。



相关系数属于数据挖掘最重要的概念之一。有两种重要的相关系数:夹角余弦(又称为皮尔逊积矩相关系数)和杰卡德相似系数。其中夹角余弦是在LBS中应用最普遍的相关系数。



1.夹角余弦



在二维空间中向量A(x1,y1)与向量B(x2,y2)的夹角余弦公式:
cos=(x1y1+x2y2)/(sqrt(x1^2+y1^2)*sqrt(x2^2+y2^2))
如果对两组样本数据来说,两组n维样本点a(x11,x12,…,x1n)和b(x21,x22,…,x2n)的夹角余弦 相类似,对于两个n维样本点a(x11,x12,…,x1n)和b(x21,x22,…,x2n),可以使用类似于夹角余弦的概念来衡量它们间的相似程度,夹角余弦取值范围为[-1,1]。夹角余弦越大表示两个向量的夹角越小,夹角余弦越小表示两向量的夹角越大。当两个向量的方向重合时夹角余弦取最大值1,当两个向量的方向完全相反夹角余弦取最小值-1。



如果将夹角余弦的概念再引申一下,引申到两组数据的回归直线的夹角的余弦,则得到皮尔逊积矩相关系数(又称作PPMCC或PCC,一般简称为相关系数),用于度量两个变量X和Y之间的相关(线性相关)。在LBS中,该系数广泛用于度量两个变量之间的相关程度。



回归直线:y=f(x)和x=f(y)。其中,ax、bx与ay、by属于线性回归方程的系数。



相关系数是两组数据的中心化后的夹角的余弦值,即等于两条回归线y=f(x)和x=f(y)夹角的余弦值。



具体来说,相关系数等于两个变量之间的协方差和标准差的商:



相关距离的定义是:
以上方程定义了总体相关系数,一般表示成希腊字母ρ(rho)。基于样本对协方差和方差进行估计时,一般表示成r:



一种等价的表达式是表示成标准分的均值。基于(Xi,Yi)的样本点,样本皮尔逊系数是



其中及sX分别是标准分、样本平均值和样本标准差。



(1)相关系数的适用范围



当两个变量的标准差都不为零时,相关系数才有定义,皮尔逊相关系数适用于:



两个变量之间是线性关系,都是连续数据。



两个变量的总体是正态分布,或接近正态的单峰分布。



两个变量的观测值是成对的,每对观测值之间相互独立。



(2)相关系数的应用



比如,有5个国家的储蓄分别为1亿元、2亿元、3亿元、5亿元和8亿元。假设这5个国家的贫困百分比分别为11%、12%、13%、15%和18%。



令x和y分别为包含上述5个数据的向量:x=(1,2,3,5,8)和y=(0.11,0.12,0.13,0.15,0.18)。



利用通常的方法计算两个向量之间的夹角,未中心化的相关系数是:



将数据中心化,即通过E(x)=3.8移动x和通过E(y)=0.138移动y,得到:



x=(-2.8,-1.8,-0.8,1.2,4.2)
y=(-0.028,-0.018,-0.008,0.012,0.042)



从而:



2.杰卡德相似系数
杰卡德相似系数(Jaccard similarity coefficient)是衡量两个集合相似度的一种指标。具体地说,两个集合A和B的交集元素在A与B的并集中所占的比例称为两个集合的杰卡德相似系数,用符号J(A,B)表示。杰卡德距离可用如下公式表示:
j=(a^b)/(aUb)
杰卡德距离用两个集合中不同元素占所有元素的比例来衡量两个集合的区分度。
杰卡德相似系数与杰卡德距离的应用
比如,样本A与B是两个n维向量,而且所有维度的取值都是0或1,例如:A(0111)和B(1011)。我们将样本看成是一个集合,1表示集合包含该元素,0表示集合不包含该元素。



M11:样本A与B都是1的维度的个数。
M01:样本A是0,样本B是1的维度的个数。
M10:样本A是1,样本B是0的维度的个数。
M00:样本A与B都是0的维度的个数。
依据杰卡德相似系数及杰卡德距离的相关定义,样本A与B的杰卡德相似系数J可以表示为:
这里M11+M01+M10可理解为样本A与B的并集的元素个数,而M11是样本A与B的交集的元素个数。而样本A与B的杰卡德距离表示为J′:


Category algorithm