全部
  • (11)

聚类中最优K值选取

K均值聚类(KMeans),是常用的一种无监督的分类算法,常用于解决市场细分,以及客户群划分等业务场景。其基本思路是:在给定的类别数K值和K个初始聚类中心点的情况下,把每个样本点都分到离其最近的簇中,然后重新计算每个簇的中心点(中心坐标),再以新的中心点进行分配和更新聚类中心,依次迭代,直到簇中中心点的位置不再变化或者变化很小,或者达到指定的迭代次数为止。所以,KMean算法对于K值和聚类中心比较敏感。KMeans算...

  • 3326
  • 0
  • 17
  • 0
2020.04.13 16:33

分类模型评估曲线

文/傅一航评估分类预测模型的质量,常用一个矩阵、三条曲线和六个指标。一个矩阵:混淆矩阵;三条曲线:ROC曲线、PR曲线、KS曲线;六个指标:正确率Acc、查全率R、查准率P、F值、AUC、BEP值、KS值;上一篇文章,介绍了分类预测模型评估的常用指标,本文继续介绍评估分类模型的三条曲线。ROC曲线和AUC值ROC曲线ROC曲线(Receiver Operating Characteristic curve),即接收者操作特征曲线,是反映TPR和FPR的综合指标。TPR = TP/(...

  • 261
  • 0
  • 1
  • 0
2020.03.05 17:42

被算法包围的一代

文/傅一航2019年年末的时候,我被邀请去给政府某部门普及大数据思维与应用。当然,我讲到大数据如何用在监控舆情,如何帮助政府改善民生,如何提高机关的办事效率,以及大数据如何做精准扶贫和精准服务,这些内容都受到听众的热情的响应。其中,有一位领导的提问引起了我的注意。她说:我最近发现一个事情,有一段时间我在UC浏览器中看过小说,后来我发现每次我打开这个浏览器,它都几乎给我推荐其他同类的小说。我很担心,我会不...

  • 252
  • 0
  • 4
  • 0
2020.02.27 11:59

时间序列之二次移动平均

在上篇文章介绍过,一次移动平均的缺点是存在滞后偏差,即当序列呈明显上长升或下降时,一次移动平均的预测值会产生明显的滞后偏差,即预测值比实际值偏低(或偏高)。 图 1一次移动平均的滞后偏差所以,如果事物呈现某种明显地上升或下降的趋势,不宜采用一次移动平均。二次移动平均为了解决滞后偏差的问题,所以提出二次移动平均,就是对时间序列的一次移动平均值再次进行第二次的移动平均,并且利用这两次的偏差,建立线性方程...

  • 4462
  • 0
  • 25
  • 0
2018.06.14 18:07

时间序列之一次移动平均

在时间序列中,最简单的两种算法就是移动平均和指数平滑。本篇先介绍移动平均。基本原理移动平均(Moving Average),就是使用前N期的历史数据进行序列的预测, 即把前N期的历史数据的平均值作为下一期的预测值。移动平均和指数平滑的实质是一种平滑技术,其基本原理,是通过消除时间序列中的周期变动和不规则波动的影响,以便呈现出时间序列的总体发展趋势(即趋势线),然后根据趋势线分析序列的长期趋势。比如,当产品的需求既不...

  • 5062
  • 0
  • 15
  • 0
2018.05.20 19:45

时间序列的因素分析法

时间序列特点在对时间序列进行分析之前,我们先来看一下时间序列的图形特点。如下图所示,常见的时间序列一般具有如下的图形特点:左上第一个图明显呈季节性变化,右上第二个图呈整体下降趋势,左下第三个图既有季节波动且呈整体上升趋势,右下第四个图没有明显的规律波动(既无季节波动也无周期变化)。 基于上述的时间序列的特点,因此,最常用的时间序列分析就是因素分解法。所谓因素分解法,就是逐一分解和测定时间序列中各项...

  • 2372
  • 0
  • 11
  • 0
2018.05.07 11:14

时间序列分析方法索引

要作数值预测,最好的方法莫过于回归预测。通过建立起影响因素(即自变量)与目标变量之间的函数关系式,就可以对因变量的未来值进行预测。尽管回归分析在预测时比较准确,但是,实现比较复杂,因为它要求能够找到所有或大部分影响事物的关键因素,这样才能够建立回归模型进行预测。但是,在真实的场景中,要找出影响事物的关键因素是非常困难的,比如,大多数社会经济指标,如国内生产总值(GDP)、消费价格指数(CPI)、上证综合...

  • 159
  • 0
  • 0
  • 0
2018.04.26 11:02

大数据的哲学观

文/傅一航2007年上,图灵奖得主吉姆格瑞在发表最后一次演讲时说:大数据已经成为科学研究的第四范式。人类在科学研究的道路上,从经验科学,到理论科学,再到计算科学,如今到数据密集型科学,科学研究对于世界运行规律的探索永不停止,大数据成为第四范式也是必然之路。大数据之所以成为第四范式,源于它建立在以下三个哲学思想之上。世界是有规律的唯物主义者说,世界是物质的,物质是运动的,运动是有规律的,规律是可以被认识...

  • 715
  • 1
  • 7
  • 0
2018.03.28 10:35

大数据相关分析

简单地说,相关分析,就是衡量两个数值型变量的相关性,以及相关程度的大小。基本知识散点图判断两个变量是否存在线性相关关系,一种最简单的方法就是可视化。相关分析中最合适的图形就是散点图。在下表中,将腰围、脂肪比重和体重用散点图的方式画出来,则如下图所示。 显然,随着腰围的增加,体重也在增加。说明,腰围和体重是存在相关关系的,而且应该是正相关。同样,脂肪比重与体重也是正相关的。可视化的优点是:直观,但其...

  • 1066
  • 1
  • 3
  • 0
2018.03.05 11:35

相关性与影响因素分析

相关性是什么“万物皆有联”,是大数据一个最重要的核心思维。所谓联,这里指的就是事物之间的相互影响、相互制约、相互印证的关系。而事物这种相互影响、相互关联的关系,就叫做相关关系,简称相关性。世界上的所有事物,都会受到其它事物的影响。HR经常会问:影响员工离职的关键原因是什么?是工资、压力还是发展空间?销售人员会问:哪些要素会促使客户购买某产品?是价格、品牌、质量还是售后?营销人员会问:影响客户流失的关键...

  • 2084
  • 0
  • 6
  • 0
2018.02.26 10:32