跳到主要内容

浅谈数据:聊一聊数据分析中的一些基础统计学知识

· 阅读需 5 分钟
Marvin Zhang
软件工程师 & 开源爱好者

引子

“所有模型都是错的,但有些很有用。”--George Box

数据分析对于很多人来说既熟悉又陌生。数据小白们觉得各种五颜六色的图表仪表盘看起来很酷炫,运营管理者们认为统计数字和时间趋势图可以帮助他们做业务决策,程序员们认为数据分析无非就是从数据库中将目标字段的数据按照一定要求捞取出来。这些看法都没错,但真正有用的数据分析,除了将数字呈现出来,还将发现的数据洞见与业务充分结合起来,实际为业务创造价值才有意义。了解一些基础统计学知识,很可能会对发现洞见有帮助。

平均值并不可靠

我们经常可以看到很多数据报表中会呈现出按照每天、每周、每月的平均数,例如当月每日平均销售额、去年每月平均访问次数,等等。平均值统计对某些特定的情况会有所帮助,例如每天起床的时间、瞄中射击靶心的偏移量。但更多的时候,你很可能会对平均值产生怀疑,因为平均数很多时候会上下波动,而且波动幅度还会很大。这里的根本原因来自于真实世界中的非线性分布(Non-Linear Distribution)。对于网站的响应时间、网页访问次数、股票走势的分布,都属于非线性分布。在这些非线性分布中,平均值就失效了,因为有大量的异常值(Outlier)让平均值产生了严重偏离(Skewed)。就像下图一样,对于自然分布(Normal Distribution)或高斯分布(Gaussian Distribution)来说,它是线性分布(Linear Distribution)的,因此平均值在其分布的正中间的峰值位置;但对于 Gamma 分布来说,因为它是一个非线性分布,其平均值严重偏离其峰值,而且当离群值越来越多,其平均值会进一步偏离其中心位置。

Gaussian and Gamma Distributions

因此对于这些非线性分布来说,平均值就不是一个合理的判断指标,而咱们可以采用中位数(Medium)来表示其大致的中心位置。咱们有很多种处理这种非线形分布的工具,其中一种就是箱线图(Box Plot)。如下图,两个分布被抽象为了一个箱和几条线,其中箱中心线就是中位数,而边缘是四分之一和四分之三分位线。这样不需要做过多复杂的分析就可以在一张图上一目了然的看出大致的分布情况。

Box Plot

相关性分析

相关性(Correlation)是数据分析中非常有意思的特性。很多相关性分析可以帮助数据分析师发现很多有趣的洞见,但它也存在很多陷阱:啤酒与尿布的虚构故事其实反映出了大量的偶然性叠加形成的相关却无因果的现实情况;二战中盟军飞机子弹部位分析结果其实是幸存者偏差(Survisorship Bias)的一个经典例子;金融新闻中充斥着大量关于股票涨跌的“事后诸葛亮见解”,例如 “受美联储加息压力影响,道琼斯指数收跌 0.5%” 之类看似专业实则毫无用处的分析结论。因此,数据分析老手都会给新手分析师强调:一定要找出因果关系(Causal Relationship),而不仅仅是相关关系。

计算相关性的工具有不少,其中笔者经常使用的是皮尔逊相关系数(Pearson Correlation Coefficient),它既可以计算正相关,也可以计算负相关,非常直观。另外计算相关性的工具是散点图(Scatter Plot),它在双变量分析中能发挥很大的作用,请参考下图。

Scatter Plot

结论

关于数据分析中涉及的统计知识很繁杂,本篇文章只介绍了平时工作中比较常用却容易被忽视的分析技巧,包括平均值陷阱、相关性分析等。其中,我们简单提及了一些真实世界中的统计学概念,例如非线性分布、异常值;关于相关性分析,除了介绍皮尔逊相关系数外,还强调了因果关系的重要性。当然,真实世界中的数据分析,要考虑的更多,因为真实数据往往背后是复杂系统和过程的表象观测值,数据分析师的一部分职责就是找出其中的关系和影响因素,从而为业务决策者提供更可靠的数据支撑。这也是为什么从业多年的数据分析师不会使用很多炫酷的技巧,而是在充分理解业务背景的前提下用简单而有效的工具得出可靠的结论。

社区

如果您对笔者的文章感兴趣,可以加笔者微信 tikazyq1 并注明 "码之道",笔者会将你拉入 "码之道" 交流群。

本篇文章英文版同步发布在 Medium.com,技术分享无国界,欢迎大佬们指点。