01 关于本系列概述
快到年底了,回想下自己的 2018 年,就是这样滴。

感觉一整年都荒废过去了,大部分时间都在抓瞎抹黑中度过。回想起当初开始学习数据分析,面对多如牛毛一样教程,感觉像是狗咬刺猬,无处下口,整个人都是奔溃的。

好在最近天气很冷,终于慢慢地冷静了下来。

仔细的思考总结了一下,决定从零开始分享学习过程,一是能够帮助自己学习,二是或许也能够給相同境遇的人提供帮助,共同学习进步。
大坑已经挖好了,希望能够做到零基础上手、手把手演示、从简到难、通俗易懂。
入门不久,道行尚浅,如有错误,不吝赐教。
02 数据分析学习路线
数据分析的学习路线有很多种,如:
- 学习 Execl、PPT 路线
- 学习 Execl、SQL 路线
- 学习编程语言和算法知识路线
都是数据分析,其实天差地别,有些可能就是做做报表整理工作;有些则需要进行商业、市场等数据分析;有些则需采用各种算法挖掘出数据中的价值。
如果你想以后从事数据分析的工作,并把它当成职业。考虑到各种各样的因素,(省略 800 字),最推荐的学习为 python 数据分析和数据挖掘。上一篇文章,也侧面证实了这是目前最优的学习路线。
下面记录需要接触的内容,之后一步一步进行学习。先给出大概框架,做到心中有数。

先来碗鸡汤,“人要逆转自己的困境,需要拼命的努力。”
下面记录的知识都是之后需要学习的内容,现在先来有个大概了解。
基于目前的认知,利用 python 进行数据分析大体上需要的知识构成为:
- 数学知识
- Python 基础知识
- Python 数据分析包使用
进阶部分,需要掌握的知识有:
- 机器学习和深度学习
- 爬虫
- 大数据
数学知识
需要的知识主要为:
- 《线性代数》
- 《概率论与数理统计》
Python 基础知识
由于只需要掌握计算部分的知识,Python 的基础知识需要了解以下内容:
- 基本语法
- 数据类型和变量
- 条件语句和循环语句
- 函数和模块的概念
Python 数据分析包
主要掌握 Python 相关数据分析包的使用,包括 Numpy/pandas/matplotlib 等。这也是需要重点掌握的内容。这部分的学习内容主要是练习各个包的使用,特别是 Pandas 包。另外,看书不练手往往使会使得自己很疑惑,不知道数据分析具体的工作内容到底是什么。为此,后续内容会有练手项目。
进阶知识
根据各人的基础不一样,感觉这部分学习可以稍后,可以主要学习前面的内容。大概记录下内容。
机器学习和深度学习
主要是以看书为主,推荐的书本为:
- 《机器学习》周志华,理论推导过程较简略,但是知识面广,例子多,帮助建立机器学习的知识框架;
- 《统计学习方法》李航,理论推导详细,只讲解算法,如果看不懂推导过程可参考;
- 《Pattern Recognition and Machine Learning》Christopher M. Bishop,该书非常全面,如果英文好可以直接看该书,有中文翻译版本,但还是建议看原版。
后续文章会有利用机器学习包实现数据分析的内容。
深度学习推荐花书《DEEP LEARNING》Ian Goodfellow。
大数据
推荐书本为《Hadoop 权威指南》。
03 结语
这里总结大概需要学习的内容,在后续内容中将一步一步讲解具体内容,同时也将分享具体数据分析实例。
更多内容和资料请关注公众号“从零单排数据分析”,ღ( ´・ᴗ・` )。