数据分析七大方法 (三种数据分析的基本方法)

一、数据分析的过程描述

数据分析过程可以用以下几步来描述: 转换和处理原始数据,以可视化方式呈现数据,建模做预测。

因此数据分析几乎可以概括为由以下几个阶段组成的过程链:

① 问题定义

② 数据转换

③ 数据探索

④ 预测模型

⑤ 模型评估

⑥ 可视化

⑦ 部署

数据分析和分配的方法,数据分析的方法对比分析法

问题定义

数据分析总是始于要解决的问题,而这个问题需要事先定义。

问题定义这一步及产生的相关文档(可交付成果),尤其是问题的规划,将唯一决定整个数据分析项目所遵循的指导方针。

定义好问题并形成文档后,接下来就可以进入数据分析的项目规划环节 。该环节要弄清楚高效完成数据分析项目需要哪些专业人士和资源。

数据分析和分配的方法,数据分析的方法对比分析法

数据抽取

数据的选取一定要本着创建预测模型的目的,数据选取对数据分析的成功起着至关重要的作用。

数据分析和分配的方法,数据分析的方法对比分析法

数据准备

数据往往来自不同的数据源 ,有着不同的表现形式和格式。因此,在分析数据之前, 所有这些不同的数据都要处理成可用的形式。

数据准备阶段关注的是数据获取、清洗和规范化处狸,以及把数据转换为优化过的,也就是准备好的形式 , 通常为表格形式,以便使用在规划阶段就定好的分析方法处理这些数据。

数据中存在的很多问题都必须解决掉.比如存在无效的、模棱两可的数据,值缺失,字段重复以及有些数据超出范围等。

数据分析和分配的方法,数据分析的方法对比分析法

数据探索和可视化

探索数据本质上是指从图形或统计数字中搜寻数据,以发现数据中的模式、联系和关系。数据可视化是突出显示可能的模式的最佳工具。

数据分析和分配的方法,数据分析的方法对比分析法

预测模型

创建或选择合适的统计模型来预测某一个结果的概率。

模型用途分为两类:

1、预测系统所产生的数据的值,使用回归模型

2、为新数据分类,使用分类或聚类模型

数据分析和分配的方法,数据分析的方法对比分析法

模型评估

验证用先前采集的数据所创建的模型是否有效 。

用于建模的数据称为训练集,用来验证模型的数据称为验证集。 通过比较模型和实际系统的输出结果, 就能评估错误率。

数据分析和分配的方法,数据分析的方法对比分析法

部署

部署,旨在展示结果,也就是给出数据分析的结论。

部署过程基本上就是把数据分析得到的结果应用到实践中去, 数据分析师撰写报告,用分析结果指导实践。

二、数据分析的三大方法

对与数据信息暴涨的现在,企业希望从数据种获得正确的信息,这些信息可以提供知识并赋予企业竞争优势。如今,企业中主要使用三种方式进行数据分析与洞见输出,即:

描述性分析:描述已经发生了什么

预测性分析:预测将会发生什么?(概率上)

规范性分析:提供应该怎么办的建议

这三种分析方法在实际数据工作中相互配合,数据分析师与数据科学家在数据建模项目中,会结合三种分析方法,在不同建模阶段使用不同的方法达成建模目标。

下面将逐一讲解这三种不同的数据分析方法,以了解每种方法如何通过数据为公司创造洞见与价值。

1.描述性分析:描述已经发生了什么(What happened?)

描述性分析是数据分析最常见也最普遍的形式。它是对历史的洞察,即回答“发生了什么?” 这类问题。描述性分析完全基于历史对数据进行描述,这里的“历史”是指数据发生的任何特定时间,可以是一个月前、几年前,也可以是一分钟前或者几秒前。因此,这种分析方法只会关注业务中已经发生的事情。与其他分析方法不同,它不会对其发现得出推论或预测。相反,描述性分析更像是数据分析的基础或起点,用于收集或准备数据以进行后续进阶的分析。

通常,描述性分析是数据分析中最简单的形式,它使用简单的数学和统计方法就能实现,典型的分析指标例如计数、均值、中位数、众数、方差、分布、相关系数等。一般描述性分析不需要更加复杂的计算逻辑。同时,可视化工具与图标在描述性分析中有普遍的应用,像折线图、饼图、条形图、热力图、直方图之类图标可以很直观的呈现数据发现的结果,帮助各种背景的人轻松理解。

描述性分析使用两种关键方法,即数据聚合和数据挖掘来探索历史数据。数据聚合通过收集和并处理数据以合成能够进行后续加工的数据集的过程。这些数据集将被用于数据挖掘阶段,在此阶段,会对数据的表现、分布、趋势和含义进行多维度的理解,然后以一种易于理解的方式呈现挖掘结果。

2.预测性分析:预测将会发生什么?(What will happen?)

不同于描述性分析只关注与历史数据,预测性分析则是专注于预测并理解未来可能发生的情况。它通过分析历史的数据与客户洞察来总结过去的数据模式和趋势,以预测未来可能发生的情况,并在此过程中为业务提供多方面的信息,比如包括设定实际的目标,圈定正确的客户群体,设计有效的营销计划,管理绩效的预期以及规避诈骗与风险。

预测性分析大多是基于概率的,即预测事件在未来发生的概率,或者事件在大概率上会如何发生。在预测性分析中,使用了多种技术,例如数据挖掘,统计建模和机器学习算法(分类,回归和聚类技术)等等,它最终的目的是试图预测可能的未来结果并提供这些结果发生的可能性。为了做出预测,例如机器学习算法会获取历史数据,加工特征,并尝试用最佳的方式来预测数据。

这里特别提一下,在之前的文章中也提到过,机器学习的一个较新的分支是深度学习,它模仿了人类神经网络的构造,将数据变为节点与层,最终汇集成网络连接在一起构成整体预测。预测性分析中也包括大量的深度学习算法,典型的案例就包括人脸识别技术与医学影片分类预测等。

由于预测性分析可以告诉企业未来可能发生的情况,因此该方法使企业能够采取更主动、更加数据驱动的方法来制定战略和决策。企业可以将预测性分析用于多个场景,从预测客户行为和购买模式到确定营销策略与客户忠诚计划等。预测性分析还可以帮助优化供应链运营、库存平衡以及商业选址等问题。

但需要明确的是,预测性分析是基于概率的,因此它永远不可能完全准确,它可以作为预测潜在的未来事件并为未来的业务决策提供信息的重要工具,辅助客户产生更有价值的洞见并提高工作的效率。

3.规范性分析:提供应该怎么办的建议(What to do?)

描述性分析告诉我们发生了什么,预测性分析告诉我们可能会发生的什么,规范性分析将告诉我们该怎么做,即执行的哪些操作。这种数据分析方法是业务分析过程中的第三步,最后也是最复杂的阶段,它是一种使企业采取行动的方法,可以帮助企业根据可用的数据做出最佳决策。

规范性分析吸收描述性分析与预测性分析中的结论,通过为企业推荐最佳的可行方案来得到行动建议。这是业务分析过程中最复杂的阶段,需要结合数据分析与专业知识,因此,它很少用于日常业务运营中。

为了做出更合理的行动建议,规范性分析一般可以将多种技术和工具(例如规则,统计信息和机器学习算法)应用于可用数据,同时分析的数据也会包括内部数据(来自企业内部)和外部数据(例如来自社交媒体的数据)。

在使用规范性分析时,目的是明确事件发生的事件、地点、以及事件发生的原因,在考虑了每个决策选项可能带来的影响之后,可以明确哪些决策将最好地利用未来机会或减轻未来风险。从本质上讲,规范性分析可以预测多个事件发生的可能性,并且同时可以在做出决定之*考前**虑每种可能的结果。

与预测性分析一样,规范性分析需要大量数据才能产生有用的结果,而这种结果并不总是可用。而且,规范性分析通常依赖的机器学习算法考虑所有的外部变量。

典型的规范性分析应用的场景例如:石油和制造业中追踪价格波动、保险业中为客户评估有关定价和保费信息的风险以及药物研究中确定最佳试验和临床试验的患者群体

4.关于诊断性分析(Diagnostic Analytics )

在一些文献中,还提到一种数据分析方法,称为诊断性分析(Diagnostic Analytics),这种分析方法回答了“为什么时间会发生?”的问题。

本篇文章中没有把诊断性分析单独作为一个分析方法进行归类,主要原因是在预测性分析以及规范性分析中,已经对事件发生的原因进行了探讨。例如机器学习的部分模型,在给出预测结果时,就会对影响结果的原因进行定位。因此诊断性分析的工作,在预测性分析与规范性分析中就已经进行了包括了,这里我就不单独抽出一类讲解。

当然,如果想要强调根因分析、事件原因分析的重要性,也可以将诊断性分析作为一个独立的分析类型加以研究。

想要获取更多数据分析相关资讯,欢迎关注我们的公众号:聚数云海。免费获取大厂真题和为期四周的免费训练营课程。