浅谈数据:数据领域需要掌握些什么?
引子
“据不完全统计,数据从业者的白头发占比高于同年龄段的平均值”---某数据从业者
数据(Data),这个对不少人来说熟悉而神秘的词语,似乎已成为各行各业都在追捧的图腾。管理者们喜欢看到五颜六色的炫酷报表,数据分析师们热衷于构建专业复杂的概率模型,业务员们将数据仪表盘作为自己能否完成业绩目标的指南针。最近十几年,数据行业飞速发展,诞生了大量让人望而生畏的专业名词,例如大数据(Big Data)、数据科学(Data Science)、数据湖(Data Lake)、数据网络(Data Mesh)、数据治理(Data Governance);当然,那些“传统”的专业词汇也让人头疼,例如数据仓库(Data Warehouse)、商业智能(Business Intelligence)、数据集市(Data Mart)、数据挖掘(Data Mining);而更可怕的事实,很多人可能还不清楚这些名词跟最近大火大热的人工智能(Artificial Intelligence)、机器学习(Machine Learning)、深度学习(Deep Learning)有什么联系。这些火热的名词背后,都是数据领域野蛮发展的必然结果。
专业医生还是算命先生?
多年前,互联网行业蓬勃发展,而数据行业的泡沫也日益增长。数据作为互联网应用的副产物,容量巨大而又丰富,很多互联网企业一门心思想要从中获取进一步增长,这是因为很多企业家将其视为金矿,进而也让数据挖掘工程师们成为了炙手可热的明星职业。之后,更火的职业应运而生,数据科学家(Data Scientist)被称为 21 世纪最性感的职业。
数据科学家职业的火爆是由于它要求多方面的经验能力:
- 编程能力:至少要用 Python 或 R 进行数据清洗、分析、建模
- 数理统计:熟练掌握概率论、微积分、离散数学等专业学科知识
- 业务知识:对相关业务领域的市场、流程、宏观趋势有深刻理解
- 沟通能力:能将分析结果以普通人类能够理解的方式表达出来