大数据相关分析
2018-03-05 11:35:04
  • 0
  • 1
  • 3

简单地说,相关分析,就是衡量两个数值型变量的相关性,以及相关程度的大小。

基本知识

散点图

判断两个变量是否存在线性相关关系,一种最简单的方法就是可视化。

相关分析中最合适的图形就是散点图。在下表中,将腰围、脂肪比重和体重用散点图的方式画出来,则如下图所示。

显然,随着腰围的增加,体重也在增加。说明,腰围和体重是存在相关关系的,而且应该是正相关。同样,脂肪比重与体重也是正相关的。

可视化的优点是:直观,但其缺点是:无法准确度量。

比如腰围和脂肪比重,对体重的影响程度到底有多大?或者说,这两个因素中哪个因素对体重的影响会更大?散点图是无法给出答案的。

所以,在相关分析时,我们将引入一个新的数据指标(即相关系数),专门用于衡量两个变量的线性相关程度。

相关系数

相关系数(Correlation Coefficient),是专门用来衡量两个变量之间的线性相关程度的指标,经常用字母r来表示相关系数。

相关系数,是以数值的方式来精确地反映两个变量之间线性相关的强弱程度的。

最常用的相关系数,是皮尔逊(Pearson)相关系数,又称积差相关系数,公式如下。

相关系数的特征如下:

相关系数的取值范围是在[-1,1]之间。

|r|越趋于1,表示线性相关越强;|r|越趋于0,表示线性相关越弱。

若|r|=1,为完全线性相关(相当于两变量有函数关系)

r=1,为完全正线性相关。

r=-1,为完全负线性相关。

若r > 0,表示两个变量存在正相关。

若r < 0,表示两个变量存在负相关。

若r = 0,表示两个变量不存在线性相关关系。

其实,并不是说一定要r=0时才表示两变量不存在线性相关。在实际的应用中,因为r表示的是相关程度,所以我们往往会将r的取值分成几个区间,来表示不同的相关程度(如下图所示)。

显著性检验

由于上述相关系数是根据样本数据计算出来的,所以上述相关系数又称为样本相关系数(用r来表示)。

若相关系数是根据总体全部数据计算的,称为总体相关系数,记为ρ。

但由于存在抽样的随机性和样本较少等原因,通常样本相关系数不能直接用来说明两总体(即两变量)是否具有显著的线性相关关系,因此还必须进行显著性检验。

相关分析的显著性检验,经常使用假设检验的方式对总体的显著性进行推断。

显著性检验的步骤如下:

假设:两个变量无显著性线性关系,即两个变量存在零相关。

构建新的统计量t,如下所示

在变量X和Y服从正态分布时,该t统计量服从自由度为n-2的t分布。

计算统计量t,并查询t分布对应的概率P值。

最后判断:如果P<α(α表示显著性水平,一般取0.05),表示两变量存在显著的线性相关关系;否则,不存在显著的线性相关关系。


相关分析类别

相关分析,常用的方法类别有:简单相关分析、偏相关分析、距离相关分析等。

简单相关分析,是直接计算两个变量的相关程度。

偏相关分析,是在排除某个因素后,两个变量的相关程度。

距离相关分析,是通过两个变量之间的距离来评估其相似性(这个少用)。

注:在没有特别说明的情况下,下文所说的相关分析,指的是简单相关分析。


傅一航,大数据专家。

主讲《大数据变革与商业模式创新》《大数据与商业智能》《大数据精准营销》《大数据分析与挖掘》《大数据建模》等课程。

邮箱:2509626286@qq.com

 
最新文章
相关阅读