销售数据分析处理过程 (销售量预测结果分析)

销售量预测是每个数据分析师都会遇到的问题，而这个问题也是一个“坑”，因为实际上没有一个人能够做好这点，这基本上和预测股票的价格一个难度，很多时候都是“猜”，只不过有些人猜的准些。下面我谈谈我常用的“猜”法。

第一步，建立假设。

假设就是你分析的基础理论，例如顾客流量带来销售，顾客流量具有稳定性和周期性，这些基本的假设决定了后续模型构建的基本思想。

第二步，确定自变量。

所谓自变量是指引起因变量发生变化的因素或条件，因此自变量被看作是因变量的原因。例如销售人员数量、门店面积、周边人口、流量、营销费用等等，这些因素最好是可以度量的，如果是不可度量的，使用起来会稍显麻烦，在这里如果有可靠的数据源可以引入一些外部数据作为因变量，例如公交车通车线路数量，周边房价，CPI等等，这些外部数据有时会有奇效。

第三步，选择方法构建模型。

方法很多，简单的有按比例+增减比率的，例如，计算过去三年每周销量占全年的比例，然后基于之前周的销售量结合历史比例推算整年销售量，而后再*退倒**剩余周的销售量，然后基于之前周的增减趋势比率进行预测量调整。

负责的有使用逻辑回归模型、决策树、神经网络等方法，这类方法的好处是可以处理分类等非数值变量，速度更快，但问题是很多时候难以解释，所以常用逻辑回归和决策树，因为这两种模型比较容易解，可以用决策树图和方程的形式展现出来。

第四步，评估模型。

在销售量预测上，评估模型的好坏主要是RMSE(均方根误差)和MSE(均方误差)，RMSE是预测值与真实值偏差的平方与观测次数n比值的平方根，MSE是预测值与真实值偏差的平方与观测次数n的比值，两者的区别在于如果对出现个别极高误差的模型的，RMSE由于是平方根，其值会小于出现极高误差较少的模型。这两个值可以衡量预测的好坏。

码字不易，不求大家赞赏，只求大家“点赞+关注”！