相关性与影响因素分析
2018-02-26 10:32:11
  • 0
  • 0
  • 6

相关性是什么

“万物皆有联”,是大数据一个最重要的核心思维。

所谓联,这里指的就是事物之间的相互影响、相互制约、相互印证的关系。而事物这种相互影响、相互关联的关系,就叫做相关关系,简称相关性。

世界上的所有事物,都会受到其它事物的影响。

HR经常会问:影响员工离职的关键原因是什么?是工资、压力还是发展空间?

销售人员会问:哪些要素会促使客户购买某产品?是价格、品牌、质量还是售后?

营销人员会问:影响客户流失的关键因素有哪些?是套餐不合理、竞争还是服务等?

产品设计人员问:影响汽车产品受欢迎的关键功能有哪些?价格、动力、空间大小等等?

……

所有的这些商业问题,转化为数据问题,不外乎就是评估一个因素与另一个因素之间的相互影响或相互关联的关系。而分析这种事物之间关联性的方法,就是相关性分析方法。

当然,有相关关系,并不一定意味着是因果关系。但因果关系,则一定是相关关系。

在过去,主要是要寻找影响事物的因果关系,所以过去也叫影响因素分析。但是,从统计学方法来说,因果关系一定会有统计显著,但统计显著并不一定就是因果关系,所以准确地说,影响因素分析应该改为相关性分析。

所以,在不引起混淆的情况下,我们也会用影响因素分析。


相关性种类

客观事物之间的相关性,大致可归纳为两大类:一类是函数关系,一类是统计关系。

函数关系,就是两个变量的取值存在一个函数来唯一描述。比如,销售额与销售量之间的关系,可用函数y=px(y表示销售额,p表示单价,x表示销售量)来表示。所以,销售量和销售额存在函数关系。这一类关系,不是我们关注的重点。

统计关系,指的是两事物之间的非一一对应关系,即当变量x取一定值时,另一个变量y虽然不唯一确定,但按某种规律在一定的范围内发生变化。比如,子女身高与父母身高、广告费用与销售额的关系,是无法用一个函数关系唯一确定其取值的,但这些变量之间确实存在一定的关系。大多数情况下,父母身高越高,子女的身高也就越高;广告费用花得越多,其销售额也相对越多。这种关系,就叫做统计关系。

进一步,统计分析如果按照相关的形态来说,可分为线性相关和非线性相关(曲线相关);如果按照相关的方向来分,可分为正相关和负相关,等等。

详细见下面的图形。


相关性描述方式

描述两个变量是否有相关性,常见的方式有:相关图(典型的如散点图和列联表等等)、相关系数、统计显著性。

如果用可视化的方式来呈现各种相关性,常见有如下散点图。

至于相关系数和统计显著性,请参后续章节。


相关性方法种类

对于不同的因素类型,采用的相关性分析方法也不相同。

下面简单总结一下所选用的相关性分析方法。


举一个简单的例子:

某电信运营商,面临增量不增收的困境,想弄明白哪些因素有可能会影响客户的消费水平(也就是说,哪些因素与费用有相关性),以及哪些因素与客户流失有相关性,于是收集了如下的表格,请分析并给出结论。


从方法的适用场景,可知:

1) 如果要评估收入对于基本费用的相关性,则可用相关性分析。

2) 如果要评估婚姻状况对于基本费用的相关性,则可用方差分析。

3) 如果要评估教育水平对于客户流失的相关性,则可用列联分析。

其余可采用类似的方法。

具体的方法介绍和使用,请参考后续文章。


傅一航,大数据专家。

主讲《大数据变革与商业模式创新》《大数据与商业智能》《大数据精准营销》《大数据分析与挖掘》《大数据建模》等课程。

邮箱:2509626286@qq.com

 
最新文章
相关阅读