数据分析的五个关键环节
第一步,界定问题:将原本简单的业务需求背后的原因挖掘出来。
第二步,收集数据:根据业务问题确定所需要的数据维度。
根据业务问题确定所需要的数据维度,对于外部与内部数据进行收集与评估。
- 我们需要哪些数据?
- 这些数据可以如何获得?
- 这些数据是否存在异常或者缺失?
第三步,数据清洗:检查数据中存在的问题并进行处理。
检查数据的中可能存在的问题,对有错误或者有问题的数据进行处理。
- 如何快速查询我所需要的数据?
- 如果数据存在缺失应该怎么做?
- 如果数据错误应该怎么做?
工具:SQL、Python
第四步,数据可视化:通过可视化图表呈现数据的结构与关系。
通过图表的形式,直观呈现数据的结构与关系,快速找到业务问题的关键要素。
- 使用怎样的图表呈现数据的趋势?
- 使用怎样的图表呈现数据的分布?
- 使用怎样的图表呈现数据的相关性?
工具:Tableau
第五步,数据建模:建立数据分析模型,对业务的发展进行评估与预测。
通过工具建立数据分析模型,从而对业务的发展进行评估与预测。
- 哪一种数据模型可以预测销售额未来的趋势?
- 哪一种数据模型可以预测消费者的购买行为?
- 哪一种数据模型可以构建用户画像?
工具:Python

这是一个通过数据分析的例子

一 、界定业务问题
从用户和收入两大方面去分析:
what:这类问题围绕公司关注的的关键指标
- 用户类指标——用户发生了什么样的变化
- 收入指标类——收入发生了怎么样的变化
why:这类问题关注的业务现状背后的原因,也就是为什么发生了变化
- 为什么这个月的新增用户下降了8%?
- 为什么这个月的销售额达成下降了5%?
how:扎到问题背后的原因,怎么去提升关键指标
- 怎么获得更多用户
- 怎么让用户消费更多
下面是一个分析腾讯视频业务收入问题的例子,通过分析得出数据分析问题:如何选择特定会员,结合合适的营销渠道和优惠,促进视频会员到期的用户进行续订。

下面以找到拼多多APP的产品功能迭代方向为例展开叙述数据分析过程
二、收集数据
sql(struct query language ),SQL是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统。语法如下
- 每个语句以 ; 结尾
- 大小写不敏感
1. 查询数据:使用 SELECT 语句
语法:SELECT 字段名 FROM 表名 WHERE (条件)
1 | SELECT * FROM user_id_info;//* 是通配符,查询所有数据 |
要求:使用SQL语言,收集每一天,不同功能的启动人数。
1 | SELECT m_function,m_date,COUNT(DISTINCT user_id) |
运行后,你会看到在12月24日、12月25日、12月26日这三天,使用功能A、功能B与功能C的用户数。

2.数据可视化
接下来,我们将所查询的数据制作成折线图,进一步进行探索。我们以日期为横轴,使用用户数为纵轴,制作折线图。 观察斜率变化。

3.业务发现
根据绘制的折线图,核心思考以下两个问题:
- 哪些功能的使用用户数在逐日递减?
- 哪一个功能的使用用户数下滑更严重?