如何提高数据分析学习的系统性?

通常我们在学习数据分析不同方法的时候,是一个方法一个方法去攻破的。学习不同的方法的时候,使用的数据集一般是完全不相干的。

这样的事实导致了如下一些问题:

(1)面对学习材料中给定的案例,能够轻易的明确分析方法,但是当面对具体分析任务时,却懵逼了;

(2)难以理解不同方法之间的差异和使用场景,现实数据结构复杂,根据记忆中存储的理想数据示例难以确定分析方法;

(3)虽然掌握了很多分析方法,但是脑子里面却是混乱的,不能解决实际问题;

(4)因为对方法体系结构了解不清,难以使用合适方法去挖掘数据所包含的不那么明显的信息;

(5)学习新的方法时,这种新方法在自己的技能体系中仍然是孤立的。

问题的原因和后果都知道了,我们就有动力和有办法寻找解决这个问题的方法。

如果在整个学习过程中,我们只使用一个数据集或者很少的几个数据集,那么我们必定会对这些数据集非常熟悉,分析结果将能够很好的被自己理解。

对这样的数据集,有一定的要求,下面列出要求和这样要求的原因:

(1)贴近现实生活:因为这个数据集需要在整个学习阶段使用,太无聊肯定不行,而且越贴近生活的数据集,日后向正式数据分析迁移的成本越小;

(2)变量类型多:可以用于多种分析方法的学习;

(3)记录数多:记录数太小觉得没啥意思吧!

当我们使用这样一份相对全面的数据集进行数据分析方法的学习时,可以很清楚的知道这个数据集中的不同部分的内容可以用哪些方法来分析。这个数据集使用的次数越多,对各种方法的使用场景就越心知肚明。

因为对方法的适用场景的熟悉,这样你将能够有能力去充分挖掘数据所包含的不那么明显的信息。

那么如何寻找或者创造这样的数据集呢?虽然我们希望尽可能在同一个数据集中能够尝试多种分析方法,但是实际上,通常我们会使用几个数据集。

记住这样的数据集的特征:

(1)贴近现实生活;

(2)变量类型多;

(3)记录数多;

下面推荐我们可得到的几种合适的数据集:

(1)问卷数据:问卷数据可以包含选择题、数值型填空题、量表题。可以用来学习描述性统计、交叉表、卡方检验、因子分析、回归分析、方差分析与t检验等。

(2)不同城市的气象数据:气象数据很贴近生活,分析起来比较有意思,不知不觉就把知识和技能给掌握了。这样的数据可以用来做时间序列分析,可以练习在不同软件中进行可视化分析。

(3)电商平台的订单数据:真金白银,且与促销活动有关,可以综合各种分析方法,找到合适的促销方案等。

如果我还出视频教程的话,一定是遵循这种思路来组织课件。实际上目前我已经做出了这样的一门课程《问卷与量表数据分析》。如想了解,可点击阅读原文