学习数据科学的7个资源
数据科学从一开始就是一个交叉学科,要求从业者在计算机、数学领域具备一定的技能,同时还要具备在同人与生意打交道的经验。
很多人会在多年的工作生活中慢慢累积相关的经验,但是如果哪儿有一个捷径存在呢?

今天与大家分享在数据科学这条路上,打基础的7大资源。
这些资源即兼顾了趣味儿性的同时也兼顾了包含在内的数据与科学原理。

“数据科学”的关键词不是数据,而是科学。——杰夫·莱克
6个数据科学资源是:
- The Drunkard’s Walk(译:醉汉漫步),Leonard Mlodinow的书
- Machine Learning Course(译:机器学习),由斯坦福大学创建并由Andrew Ng执教
- Introduction to Mathematical Thinking(译:数学思维概论),同样由斯坦福大学创建并由Keith Devlin执教
- Coding(译:编程)
- People(译:人)
- Reading about Heterodox and Orthodox Economics(译:"正统"经济学和"异端"经济学)
一、醉汉漫步(The Drunkard’s Walk)
醉汉漫步这本书,是帮助我们理解随机性对我们生活造成的影响,亚马逊的产品描述是这样的“它揭露了这些心理错觉是如何阻挡我们理解生活,从选股到品酒”。
它帮助我觉察到我们是多么容易成为概率的受害者,也帮助我理解为什么我们更容易推到理解导致事件发生的所有因素,而预测类似情况会不会再次发生却很难的原因。
从分析者的角度来说,这本书向我们展示了预测模型的重要性也从统计数据的角度证明了历史事件发生的必然性,同样还向我们展示了如何使用数据来解答一些难以理解的问题,以及为什么有些问题仍旧无法获得答案。

二、机器学习(Machine Learning Course)
这门课是斯坦福大学在Coursera上的公开课,是很多朋友也是我在机器学习中的入门课,在我看来这是一个必读的课程。
它会首先帮你复习线性代数中的核心概念,然后会教你基础的Matlab(Octave)编程。完成这些后,才会提出第一个关于一元回归的概念。之后,课程会带你学习一些有趣的部分,比如做数据分析的一些主要方法工具以及神经网络,但是如果你想很认真很认真的学习,那你就要多做练习并且在过程中会接触到很多课外知识,这些都会帮助你建立在机器学习中的直觉与数学能力。

三、数学思维概论(Introduction to Mathematical Thinking)
这门课不仅覆盖了我在第一学期中学到的一些概念,它还提升了我在分析思维上的能力。对于大多数人来说,这门课在帮助大家从传统的推理思维转换到数学思维这件事儿上建立了一个很好的范例。除此以外,部分课程会在数学证明上具有一定的挑战性。特别是对于普通的书写语言而言,它会让你有一种在学习一门新语言的感觉。
你不会感到学习“一门新语言”这件事很痛苦,因为批判思维对数据科学尤为重要。另外一个重要的点(或者说减轻痛苦的点)是这门课会帮助你在探索数据科学时扫清一些常见谬误的概念。

四、编程(Coding)
大体来说,对于生活中遇到的一些数据科学问题,我们已经渐渐不用再自己去编程,这部分任务已经被 Alteryx, Azure Studio, Dataiku, H2O.ai, or Knime这些平台完成。
然而,成为一个通用框架或编程专家在很长一段时间内都能给你在快速高效处理未清洗的机器学习数据时极强的自信。
在最开始时你的问题可能是“我如何把csv文件的内容读取到数据框架里?我如何做一些简单的数据可视化工作?我如何把所有类里的数据值变成数值?我如何处理多列表数据集?”,在过了某个时间节点后,你的问题就变成“这里用loopsin合适吗,还是有其他的方式能达到这个目标,比如vectorised?我如何才能把我的算法简化从而降低所占用的计算机资源?“

一个简单的Seaborn指令可以帮助你建立直观大方的数据可视化视图。
五、人(People)
作为一个数据科学,可能需要你安静的坐下来,然后敲无止尽的代码,做成天上月的特征工程,最后才能得到一些有意义的数据。在这样的情况下,一个人如果无法能从高认知层面上解释或者理解它在干什么以及它为什么这么干,那么他是无法从中获得乐趣的。当日,最关键的是你需要首先定义清楚你要解决的问题。
假设你是一个电子商务公司的数据科学家,你突然接到报告说“信用卡欺诈交易数量突然间上升了”。虽然说你对于这个问题还没有任何线索,但是你心中已经知道大概可以先从这几个点入手。一个新手会犯的错误是直接去看一个分类或者群模型,只是因为“欺诈”这个字眼影响你这么做。探索性的数据分析可以在最开始的时候帮助你,但是核心问题仍旧无法被回答:应该去分析什么,从哪儿开始,最终的目标是什么,如何来衡量你工作的影响。最终可能你会发现问题是出在版本发行中的一个bug,一个你无须什么数据分析技巧就能解决的问题。
事实上设计思维是一个在People中被广泛认知的方*论法**。尤其是在基础交流、讲故事、定义问题和产品开发中。尽管设计思维同数据科学没有直接的联系,但是它可以帮助数据科学家同身边的人交流并交付“数据产品”。
六、"正统"经济学和"异端"经济学(Reading about Heterodox and Orthodox Economics)
如果你正在处理消费者数据,这些资源将会特别有用。但是如果你正在处理数据中心监控数据,药品数据,金融监控,工厂传感器上的生物医学数据,这些资源基本用不上。记住,这篇文章是基于我自身的经验,但是这里的要点是获取某一专业领域的知识。
我用简单的方式介绍一下两者的不同:正统经济学着重用一串的主流模型解释过去,现在和未来。然而"异端"经济学加入了很多的社会中的个人情况,经常在均衡中带入一些主观性。
拿巴西汽车价格举例。虽然巴西仍然在与高物价,荒谬的税收,仅仅只有12%的地方铺有公路等情况做着斗争,但是汽车制造商仍然有很高的利润率。除此之外,当人们在买车的时候,人们更倾向购买高档次的汽车,有时不惜以过高的利率分72期进行偿还。这又很多客观的和主观的原因在里面。相比于公共交通的质量,有一辆好车既是地位的象征,同时在繁忙的交通中人们有一辆车感觉会更好......这些变量可以用"正统"经济学进行评估,但是当每一个人都有自己的价值感知时,这些变量就不能直接进行评估了。这个挑战是在购买者和利润率都最大化时定义产品和价格。所以理解文化价值和宏观经济因素对感知的影响之间的对抗是重要的,这将对你进行分析更加有利。而且,理解个人行为是个性化的关键,同时这也是数据科学中的一个重要主题。顺便说一句,根据以上的例子,利率同样来自主观的因素,比如借款人和*款贷**人的时间偏好。

领取阿里云 ¥1888元 限时红包
