
平均值和中位数
最近读到一则消息:2022年底,A股的总市值84.88万亿,截止2023年6月30日收盘,A股总市值93.42万亿,增加了8.54万亿,股民数为2.18亿,人均盈利3.91万。
看到这个消息,您是怎么想的呢?如果您没有进入股市,是不是觉得错失了这个财富增加的机会?如果您已经是股民,但是没有赚到钱,是不是觉得应该深刻检讨?
再看一则消息:2021年年底A股市值为91.2万亿,比2020年增加了11.5万亿。在这种情况下53.9%的股民盈利,46.1%的股民亏损。也就是说,接近一半的人亏损,接近一半的人赚钱。
资质平均的股民,收益应该是不赚不亏,那么那所谓“人均盈利”3.91万是怎么回事呢?这钱都到哪儿去了。不管是基金公司拿走了,还是少数掌握资源的人拿走了。反正这些钱没有进去普通股民的口袋。
在这个例子中,我们不能只凭“人均盈利”这个指标作出判断和决策。
为了更好理解这个道理,我们再看一个例子:
假设您是一位工程师,你带领的研发团队,成功开发了一个火箭关键零件。并获得埃隆马斯克创办的 太空探索公司 SpaceX的大量订单 。
公司奖励你们去全市最高级的餐厅庆祝。
在包间里环顾四周,都是你熟悉的面孔,有资深工程师,有实习生一共十位同事。看着这群可爱的同事,你觉得有必要向公司提议要给他们加工资了。有意思的是,从1号椅子到10号椅子,刚好是月薪从低到高,您月薪最高坐在第10号椅子。
您默默地回想一下,他们的月薪分别是:(单位为万)2, 4, 6, 8, 10, 12, 16, 20, 32, 40,
您算了一下,你们的平均月薪刚是15万元,您的月薪最高,是40万元。这时你可以用 “平均值” ,这个指标,来描述你们小组的工资水平。
埃隆马斯克,听说了你们的成就,觉得很感兴趣,特地跑过来找你们庆祝,他坐在了第11张椅子上。他很高兴地表示今晚他是你们小组的一员。此时你们的小组平均月薪一下子变成了8000万。
令你很困惑的是,你们十位同事的收入并没有增加。但你能跟你的老板说,因为我们的平均月薪只有8000万,还需要加薪吗?
在我们收集的数据里面,平均值经常会被异常值拉得很高或很低。
此时“中位数”更能代表数据的特征,顾名思义,中位数是排在“中间”的数字,如果遇到一组数字的个数是偶数,那么中位数是中间两个数字的平均。
在马斯克来之前,中位数是排第五和排第六的数的和的平均:(10+12)/2=11万元,马斯克来之后,中位数就是12万元。由此可见,有时“中位数”更能抵抗异常值的影响。
在这11个人当中,有一半同事的月薪小于中位数12万元,有一半同事的月薪大于中位数。
2021年在A股中接近一半的人亏损,接近一半的人赚钱,中位数是刚好是0 。
中位数把数据分为了两部分,同样我们可以把数据等分为四部分,第一四分位数由处于底部的25%的数据构成,往后的25%的数据构成了第二四分位数,依此类推。
同样的,A股收益数据还可以分为“十分位数”,每组包含10%的数据。如果你的收益属于收益顶层的那10%,那么这意味着你要比90%的股民挣得都多。
这类描述性数字的好处在于,它们描述了某个具体的值在与其他数据进行比较时所处的位置。
每年的期末考试,您都关心孩子的成绩。
孩子告诉您,这次期末考试的总成绩是700分。700分是个绝对值,如果没有其他的参照,意义不大。
如果老师告诉您,您的孩子成绩排在全市前面1000分位,那他的成绩排在前千分之一,如果你们全市有10000位学生参加开始,他排在前十名。这时你就不需要再给孩子增加课外辅导班了。
前千分之一是个相对值,这个数值比700分更加有意义。
标准差
你带领火箭零件的开发团队,你们的工资分别是(万元):2, 4, 6, 8, 10, 12, 16, 20, 32, 40。
公司的另外一个部门,汽车零件开发部,刚好也是10位同事,他们的工资分别是(万元):14,14,14,15,15,15,15,16,16,16。
两个部门的平均工资都是15万元。
你更喜欢哪个团队呢?
从上面的数据观察,汽车零件开发团队的工资,都比较接*平近**均值,而火箭开发团队的工资多数偏离平均值。前者看起来更加“稳定”,后者“波动”更大。
统计学家用“方差”或者“标准差”表示这种“波动”。
标准差(standard deviation)是用来度量一组数据离其平均值的偏差程度的统计量。在统计学中,标准差常用来衡量一组数据的离散程度,即数据偏离平均值的程度。
标准差越大,表示数据更加“离散”,表示“波动”越大。
方差=偏差平方和/n (n是表示一组数字的个数)
方差开根号后就是标准差:标准差=√方差
偏差平方,表示组内其中一个数字与平均值的差,然后计算这个差的平方值。偏差平方和,表示这组数据所有数值偏差平方的加总。
现在我们计算火箭零件开发团队的工资标准差:
1、计算算各个数值的偏差平方
(2 - 15)^2 = 169
(4 - 15)^2 = 121
(6 - 15)^2 = 81
(8 - 15)^2 = 49
(10- 15)^2 = 25
(12 - 15)^2 = 9
(16 - 15)^2 = 1
(20 - 15)^2 = 25
(32 - 15)^2 =289
(40 - 15)^2 = 625
2、计算偏差平方和
169 + 121 + 81 +49 +25 + 9 + 1+ 25+ 289+625 = 1349
3、计算方差
s^2 = 1349/10 = 134.9
4、计算标准差
标准差,是方差的开根号:s = √ 134.9 =11.6
5、结论:火箭零件开发团队的工资标准差是11.6
同样的方法,我们计算得出汽车零件开发团队的工资的标准差是0.77。对比可以看出汽车零件的工资波动性,比火箭开发团队的工资低得多。
如果您是有足够的自信,相信您更喜欢留在火箭零件开发团队,因为在这里可以争取到高薪。而有些人喜欢加入汽车零件开发团队,因为在这里可以稳定地得到可观的收入,就像很多人喜欢加入公务员队伍一样。选择创业的“标准差”更大,因为可以像马斯克那么富有,也可以一败涂地。
在投资方面,有些人喜欢买股票,有些人喜欢买基金。股票的标准差更高,收益可以很高,也可能血本无归。基金可以获得稳定的收益,但收益率不会很高。
“标准差”的应用非常广泛,统计学高手可以使用“标准差”去思考和拆解人生的难题。
质量的本质是标准差
所谓质量好,就是波动小,标准差小。
在这个系列的第一遍文章里面,
Rocky管理的流水线上生产的胸杯,宽度要求57mm,允许公差是正负3mm。
实际生产抽检发现平均值是57.26;标准差是0.8134;由于标准差足够小,加或减去3个标准差,都不会超出允许公差的范围。根据 中心极限定律 (后面的文章会细讲),超出3个标准差的几率会很稀少,所以这个流水线的缺陷率就比较低。
质量控制就是要控制标准差,控制波动。
如果你是一个公司的采购,你应倾向于选择标准差控制得比较好的厂家。
产品如此,人也如此。如果有一位同事,有时候会超额超前完成工作任务,有时会很消极,不能按时完成,甚至闯祸。算起来,他的“平均水平”还不错,但这样的人,你敢让他担任重要岗位吗?
领导也一样。“可预测的”(Predictable)是评价管理者的一个指标。如果您是一个Predictable的管理者,那下属总能预测您的决策。一个管理者的决策越能预测,他越是一位好的管理者。
员工需要明确了解到,我做这件事情,老板会支持还是反对?做那件事情会受到奖励还是惩罚?一个琢磨不定的管理者,每次决策都不一样,听上去很有道理,但总彼此矛盾。高兴时小事吹上天,不高兴时,再大的功劳也无动于衷。员工无法预测下一次做同样的事情会有什么后果。这样的管理者是不可预测的。
面对不可预测的管理者,员工从不做决定,不提意见。这样的管理者什么事都要问,什么事都要管,很辛苦,但管理效率极其低下。
我们要做一个可预测的管理者。
这一章,我们学习了描述性统计,除了平均值,我们还可以用中位数和标准差去描述一组数据。下面是一道习题,希望大家动动笔,更好地理解这些概念。