傅一航大数据的专栏

聚类中最优K值选取

K均值聚类（KMeans），是常用的一种无监督的分类算法，常用于解决市场细分，以及客户群划分等业务场景。其基本思路是：在给定的类别数K值和K个初始聚类中心点的情况下，把每个样本点都分到离其最近的簇中，然后重新计算每个簇的中心点（中心坐标），再以新的中心点进行分配和更新聚类中心，依次迭代，直到簇中中心点的位置不再变化或者变化很小，或者达到指定的迭代次数为止。所以，KMean算法对于K值和聚类中心比较敏感。KMeans算...

3946
0
17
0

2020.04.13 16:33

分类模型评估曲线

文/傅一航评估分类预测模型的质量，常用一个矩阵、三条曲线和六个指标。一个矩阵：混淆矩阵；三条曲线：ROC曲线、PR曲线、KS曲线；六个指标：正确率Acc、查全率R、查准率P、F值、AUC、BEP值、KS值；上一篇文章，介绍了分类预测模型评估的常用指标，本文继续介绍评估分类模型的三条曲线。ROC曲线和AUC值ROC曲线ROC曲线（Receiver Operating Characteristic curve），即接收者操作特征曲线，是反映TPR和FPR的综合指标。TPR = TP/(...

399
0
1
0

2020.03.05 17:42

被算法包围的一代

文/傅一航2019年年末的时候，我被邀请去给政府某部门普及大数据思维与应用。当然，我讲到大数据如何用在监控舆情，如何帮助政府改善民生，如何提高机关的办事效率，以及大数据如何做精准扶贫和精准服务，这些内容都受到听众的热情的响应。其中，有一位领导的提问引起了我的注意。她说：我最近发现一个事情，有一段时间我在UC浏览器中看过小说，后来我发现每次我打开这个浏览器，它都几乎给我推荐其他同类的小说。我很担心，我会不...

281
0
4
0

2020.02.27 11:59

时间序列之二次移动平均

在上篇文章介绍过，一次移动平均的缺点是存在滞后偏差，即当序列呈明显上长升或下降时，一次移动平均的预测值会产生明显的滞后偏差，即预测值比实际值偏低（或偏高）。图 1一次移动平均的滞后偏差所以，如果事物呈现某种明显地上升或下降的趋势，不宜采用一次移动平均。二次移动平均为了解决滞后偏差的问题，所以提出二次移动平均，就是对时间序列的一次移动平均值再次进行第二次的移动平均，并且利用这两次的偏差，建立线性方程...

6238
0
28
0

2018.06.14 18:07

时间序列之一次移动平均

在时间序列中，最简单的两种算法就是移动平均和指数平滑。本篇先介绍移动平均。基本原理移动平均（Moving Average），就是使用前N期的历史数据进行序列的预测, 即把前N期的历史数据的平均值作为下一期的预测值。移动平均和指数平滑的实质是一种平滑技术，其基本原理，是通过消除时间序列中的周期变动和不规则波动的影响，以便呈现出时间序列的总体发展趋势（即趋势线），然后根据趋势线分析序列的长期趋势。比如，当产品的需求既不...

5737
0
15
0

2018.05.20 19:45

时间序列的因素分析法

时间序列特点在对时间序列进行分析之前，我们先来看一下时间序列的图形特点。如下图所示，常见的时间序列一般具有如下的图形特点：左上第一个图明显呈季节性变化，右上第二个图呈整体下降趋势，左下第三个图既有季节波动且呈整体上升趋势，右下第四个图没有明显的规律波动（既无季节波动也无周期变化）。基于上述的时间序列的特点，因此，最常用的时间序列分析就是因素分解法。所谓因素分解法，就是逐一分解和测定时间序列中各项...

2581
0
11
0

2018.05.07 11:14

时间序列分析方法索引

要作数值预测，最好的方法莫过于回归预测。通过建立起影响因素（即自变量）与目标变量之间的函数关系式，就可以对因变量的未来值进行预测。尽管回归分析在预测时比较准确，但是，实现比较复杂，因为它要求能够找到所有或大部分影响事物的关键因素，这样才能够建立回归模型进行预测。但是，在真实的场景中，要找出影响事物的关键因素是非常困难的，比如，大多数社会经济指标，如国内生产总值（GDP）、消费价格指数（CPI）、上证综合...

213
0
0
0

2018.04.26 11:02

大数据的哲学观

文/傅一航2007年上，图灵奖得主吉姆格瑞在发表最后一次演讲时说：大数据已经成为科学研究的第四范式。人类在科学研究的道路上，从经验科学，到理论科学，再到计算科学，如今到数据密集型科学，科学研究对于世界运行规律的探索永不停止，大数据成为第四范式也是必然之路。大数据之所以成为第四范式，源于它建立在以下三个哲学思想之上。世界是有规律的唯物主义者说，世界是物质的，物质是运动的，运动是有规律的，规律是可以被认识...

817
1
7
0

2018.03.28 10:35

大数据相关分析

简单地说，相关分析，就是衡量两个数值型变量的相关性，以及相关程度的大小。基本知识散点图判断两个变量是否存在线性相关关系，一种最简单的方法就是可视化。相关分析中最合适的图形就是散点图。在下表中，将腰围、脂肪比重和体重用散点图的方式画出来，则如下图所示。显然，随着腰围的增加，体重也在增加。说明，腰围和体重是存在相关关系的，而且应该是正相关。同样，脂肪比重与体重也是正相关的。可视化的优点是：直观，但其...

1135
1
3
0

2018.03.05 11:35