浅谈数据:聊一聊数据分析中的一些基础统计学知识
引子
“所有模型都是错的,但有些很有用。”--George Box
数据分析对于很多人来说既熟悉又陌生。数据小白们觉得各种五颜六色的图表仪表盘看起来很酷炫,运营管理者们认为统计数字和时间趋势图可以帮助他们做业务决策,程序员们认为数据分析无非就是从数据库中将目标字段的数据按照一定要求捞取出来。这些看法都没错,但真正有用的数据分析,除了将数字呈现出来,还将发现的数据洞见与业务充分结合起来,实际为业务创造价值才有意义。了解一些基础统计学知识,很可能会对发现洞见有帮助。
平均值并不可靠
我们经常可以看到很多数据报表中会呈现出按照每天、每周、每月的平均数,例如当月每日平均销售额、去年每月平均访问次数,等等。平均值统计对某些特定的情况会有所帮助,例如每天起床的时间、瞄中射击靶心的偏移量。但更多的时候,你很可能会对平均值产生怀疑,因为平均数很多时候会上下波动,而且波动幅度还会很大。这里的根本原因来自于真实世界中的非线性分布(Non-Linear Distribution)。对于网站的响应时间、网页访问次数、股票走势的分布,都属于非线性分布。在这些非线性分布中,平均值就失效了,因为有大量的异常值(Outlier)让平均值产生了严重偏离(Skewed)。就像下图一样,对于自然分布(Normal Distribution)或高斯分布(Gaussian Distribution)来说,它是线性分布(Linear Distribution)的,因此平均值在其分布的正中间的峰值位置;但对于 Gamma 分布来说,因为它是一个非线性分布,其平均值严重偏离其峰值,而且当离群值越来越多,其平均值会进一步偏离其中心位置。

因此对于这些非线性分布来说,平均值就不是一个合理的判断指标,而咱们可以采用中位数(Medium)来表示其大致的中心位置。咱们有很多种处理这种非线形分布的工具,其中一种就是箱线图(Box Plot)。如下图,两个分布被抽象为了一个箱和几条线,其中箱中心线就是中位数,而边缘是四分之一和四分之三分位线。这样不需要做过多复杂的分析就可以在一张图上一目了然的看出大致的分布情况。






