什么是数据分析
1.什么是数据分析
数据分析
为了解决相关业务问题, 从数据中提取特征, 经过预处理后进行分析, 最终构建模型. 这种方法旨在提取有助于业务发展的关键信息, 并帮助我们得出具有指导意义的结论, 同时支持决策过程.
它具体是在做什么?
“全流程”的数据项目流程:
业务问题的界定➡数据收集与清洗➡分析与模型
它能产生什么样的价值?
强调了数据分析的价值最终体现在业务上
数据分析工作的作用:
帮企业创造盈利,为企业的生存与发展建立基础
1.1 数据分析是怎么提高企业盈利的?
传统的零售企业 :如宜家
盈利=销售所产生的收入-外部市场和内部经营所产生的成本和损失
提高收入:
更低成本获客
提高现有顾客购买金额
让购买中低端产品的顾客高买更高价利润更高的产品
成本和风险控制:
帮助企业预测市场走向
减少产品滞销和畅销产品断货的几率
优化内部经营的效率
互联网企业 :如领英
商业模式=用户数量+用户活跃度、
数据分析有助于互联网企业获取大量用户,并能够帮助这些企业在竞争激烈的市场中占据优势。
通过数据分析技术的应用,互联网企业得以吸引并留住大量用户群体。
采用数据分析方法后,在线企业不仅能够扩大客户基础规模,并且成功地吸引了投资资金。
依靠数据分析手段的支持,在线企业得以迅速发展并实现了持续稳定的盈利增长。
关注的数据:注册数量、每日活跃用户数、客户留存比率
1.2 数据分析的必备技能
数据分析人员的两个重要能力要求:
与人沟通协作的能力
与非技术人员明确业务问题
将数据分析结果沟通给其他成员
与机器工作的能力
向机器提供数据,模型与算法,
并分析机器给出的结论
覆盖以下几个内容:
(1)从关系型数据库中查询,收集数据的能力。
代表工具:SQL语言
(2)对数据进行清洗,整理,分析和模型的能力
代表工具:Python
(3)对数据探索和分析结果进行可视化展示的能力
代表工具:Excel、Tableau
2.数据分析工作的流程
明确研究目标➡数据获取及质量检验➡数据预处理及噪音去除➡特征分析及可视化呈现➡分析框架构建
明确研究目标➡数据获取及质量检验➡数据预处理及噪音去除➡特征分析及可视化呈现➡分析框架构建
界定问题
定义所需分析得业务问题,确定相对应的数据分析计划和交付物
数据收集与评估
根据问题确定所需的内部和外部数据源,
汇总成分析数据集,并进行初步数据质量的评估
数据整理与清洗
检查数据中可能存在的问题对有错误或者有问题的数据进行清洗,
并将数据整理成命名规范,取值格式统一的形式
数据探索与可视化
进行初步的数据探索分析,在可视化工具的帮助下,
找到数据的底层结构和规律及能帮助解决问题的关键因素
数据分析模型
将变量信息输入到分析模型中,经过模型的选择和调整,
最终给出能部署到业务中的数据分析结果
并非所有的工作都是严格按照顺序进行的
在定义业务问题时
在大多数情况下企业已对自身拥有的数据有了一定程度的掌握 在类似问题出现之前就已对其进行了充分的了解
在数据清洗和数据探索期间
难以确定清晰的分界线时,在数据探索的过程中可能会发现潜在的问题。
同样的数据进行数据可视化之后
不一定需要跟复杂的模型工作才能算是数据分析项目的完结
3.界定分析问题
分析问题大致分为三类:
- WHAT 什么发生了?
- WHY 为什么会发生?
- HOW 我们能做什么?
WHAT 发生了什么?
WHAT类问题通常围绕企业所关注的重要指标
以宜家为例:
“我们这个月的收入和利润如何?”
“每个顾客在我店里大概会花多少钱?”
“家具类产品里面是沙发卖的好还是桌子好?”
数据分析师此类问题工作内容:
观察这些指标的当前值
监控他们本周,本月,本年的表现
比较这类数据与上个月或者上个季度或者去年同期的数据
对于总体业务稳定的企业,
将重要的指标汇总到报表中,让系统可以自动化的定期更新
帮助业务方和决策者可以随时了解企业的经营状况
WHY 为什么会发生?
WHY类问题关注的是业务现状背后的原因
例如:该品牌于2018年较上一年度的消费者数量出现显著增加;然而每位消费者的平均消费额减少约一成五(即减少约一成),导致整体销售额出现下滑趋势。这一现象背后的原因是什么?
深挖数据发现,相较于2017年,2018年高价值消费占比明显低于2017年。
潜在的因素可能包括经济因素、市场环境以及其它相关因素;而对于宜家集团而言,则首要原因是.
用户没有花钱在价格高的产品上
HOW 我们能做什么?
在多数情况下影响着数据分析人员提出的WHY类议题,往往源自业务领域对HOW类关注方向。
例如:上一个顾客花钱少的问题
企业部门管理层对于业务相关事宜普遍关心关注的重点是:他们的真实目标为何是:'如何能在宜家店内让顾客多消费?'
如果是传统零售企业会采取“全场打折”的套路
而宜家作为以数据驱动的企业立刻采纳了“精准营销”的方案
作为数据分析师应该意识到
当前阶段面临的业务挑战是识别具有高消费潜力的客户群体,并制定并实施针对不同客户群体的营销策略以设计并发放具有吸引力的优惠券以刺激顾客进行更有针对性地促销
从数据角度,拆分成两个问题:
(1)定义高价值顾客,并从数据中识别高价值顾客的具体特征。
首先按照某种标准对客户进行分组;然后通过分析该群体的特征来识别出具有高价值的客户群体;最后根据这些高价值客户的特性来制定相应的营销策略。
(2)筛选出那些在获得优惠券后主动进行使用的顾客,并持续追踪其后续购买行为。
定义好问题和分析计划的步骤
- 首先, 通过与关键业务人员的协作, 识别可用于推动业务发展的关键环节.
- 其次, 结合技术方法和相关数据资源, 确定能够有效解决问题的方向, 并制定详细的数据分析计划.
- 最终, 明确评估分析项目成功与否的标准指标.
| 解决方法 | 交付方法 | |
|---|---|---|
| what类问题 | 以数据库中抽取,拼接,聚合为主 | Excel或者Tableau可视化报表 |
| why类问题| 通过数据分析挖掘隐藏的见解,并基于现有的数据分析结果展示
做简单的数据整理与分析工作| 以PPT或文档的方式生成最终的结论报告 |
|how类问题| 构建相应的分析模型用于解决相关的问题|
构建相应的分析模型用于解决相关的问题|
|做简单的数据探索和分析| 通过制作PPT或撰写报告等方式呈现最终输出的结论报告及实施步骤方案
完成基础的数据整理与分析工作|
4.数据收集与评估
基于前面所设定的数据分析问题和计划
在此步骤中,
将收集后续分析所需的原始数据,并进行基本的数据质量评估
在收集过程中👉注意个数据源的格式以及相关关系
在评估过程中👉注意数据的完整性,准确性和及时性
分析数据的收集
广义的数据收集
企业将有关自身利益的各类内部和外部数据纳入到数据库的系统流程
在法律允许的范围之内,充分的收集用户社会,行为,消费信息
狭义的数据收集
从数据库的多个数据表中进行抽取,拼接,聚合的工作,
以形成解决问题所需的数据集的过程
(1)数据收取
分析数据集的形态,分析问题的时候确立工作的“分析单位”
遇到数据量极大的分析问题,可虑是否对数据进行抽样
从工作的效率考虑
对数据进行随机抽样以节省数据探索和分析时间
在分析结论和模型验证通过后,再部署到全量数据
(2)数据拼接
表与表之间的关联关系
关联关系大体分为三种:一对一、一对多、多对多
(3)数据聚合
部分依赖于数据分析人员以往的工作经验,也基于行业通用的分析框架
比如,在网站或应用上停留的时间会被整合为:用户在过去一个月内的平均访问时长。根据这一指标的数值大小,则会将用户划分为“高粘性”、"中等粘性"和"低粘性"三个类别。这些分类便于业务人员理解和实施相关的营销策略,从而实现精准施策。
数据科学家应当将这类任务编码到SQL代码中,并由此构建出强大的标签化系统。
原始访问时间数据➡生成用户黏度标签。也被称之为“衍生变量”
在做数据探索时,发现新的有价值的衍生变量,也应该反馈到这一步。
好的分析数据集,不仅要足够长,也还要足够宽。
评估整体数据状况
在数据收集过程前
👉评估各个数据源的完整性和及时性
完整性检查
原始数据不存在和已知业务常识之间的明显差距
及时性检查
确保各数据源都反应的是相同时间窗口数据
这类数据通常情况下每月进行更新,并与企业自身的系统每天的更新频率存在显著差异
在分析数据集后
👉评估汇总数据的准确性和一致性
因为使用了SQL语言进行了抽样与聚合处理之后,需要注意分析数据与原始数据之间的差别
执行对关键数据的基本统计查询操作,请获取用户的年龄最大值、最小值以及订单金额的变化特征。通过这种方式能够迅速识别潜在的问题。
5. 数据清洗与整理
工作包含两个方面:
“清洗”
将有问题的数据排除出去
👉涉及对数据缺失,异常值和其他问题的处理
“整理“
将数据转化成更有利于后续分析大的样式
👉如将实际年龄转换成80后,90后这样有业务意义的分组
1.数据清洗
数据缺失问题:
缺失的信息来自哪个表?在原表中他们也是缺失的吗?
排除在数据抽取和拼接过程中所产生的错误
如果在原表也缺失,那么是否是有收集信息的疏漏?
从商业角度看,获取性别信息或收入数据这类敏感的数据项可能源于注册时用户主动或被动地拒绝提供相关个人信息的原因。
如果业务团队对数据进行过报告,并且这些数据是收集后形成的,则表明底层数据的录入存在缺陷。
缺失信息的比例是多少?
在排除了系统和流程问题之后,才会考虑技术处理的方法
当缺失比例超过90%➡可以进行删除
当缺失比例较小➡可以采用均值,中位数或者回归方式填充
数据异常问题:(三种主要的类型)
数据有明显违背常识的错误
在数据收集时,更多看的是汇总层面的数据
数据的离群值(outlier)
首先确认该客户原有记录的数据是否一致,并随后评估这些数据的具体来源渠道;接着从技术层面分析是否存在异常数据,并探讨相应的处理策略。
- 数据整理
清洗掉数据中的缺失值和错误,对离群值等进行核实和调整
主要任务有两个:
- 对数据实施标准化规范化处理
- 将部分信息重新映射以适应后续分析过程
其中一项数据命名或取值不当的情况可能会对潜在的数据探索和后续分析产生较大影响
对数据进行重新编码➡帮助挖掘新的信息
6.数据探索与可视化
变量的统计特性
不同变量之间的关系
探索性数据分析EDA
**主要目的在于:**深入探索数据现象背后的规律,并提炼出具有战略意义的关键见解来构建核心驱动要素
此阶段中,数据可视化将发挥巨大的作用
如何找到“高价值顾客 ”
价值无法直接衡量和观测➡现有信息中找到一个变量来间接反映价值
在忽略复杂的分析模型和方法的前提下,在对'累积购买总额'这一核心指标进行分析时,则能够实现业务表现评估
从业务角度来说➡累积购买总额 ,是个很好的选择
累积购买总额指标:最小值、最大值、平均值、方差、四分位数的取值
如何分析不同变量之间的关系
相关分析➡最常用的统计指标
皮尔森相关系数
取值在-1和1之间,代表着从负相关到正相关之间的关系
从单个变量分析到不同变量之间的相关关系
好的探索分析依赖于👉统计经验👉可视化工具👉业务知识
利用Python这一类工具进行自动化处理以实现对所有变量执行基本统计指标计算,并自动生成相应的基础数据可视化图表;这样能够显著减少单独每个变量分析所需的时间投入。
可视化,可以帮助数据探索的工具,直接为业务提出洞见
总结
- 利用可视化技术对数据进行探索
- 相关分析得出了若干关键变量,这些变量为后续的分析模型建立提供了重要依据
7.数据分析模型
数据分析模型是对数据分析中各种规律的抽象总结
本环节中要解决的问题是:
👉客户分群👉预测分类
找到高价值用户的特征➡聚类分析来进行客群设定
”累积销售金额“就是顾客价值的体现➡回归模型:Y=AX+B的模型
回归分析方法与分类方法的主要预测目标存在显著差异;回归分析方法主要应用于预测诸如销售额、股票价值等数字型指标。
当模型建立出来时就达到了和聚类分析一样的目的
种聚类分析➡RFM分析
RFM模型是一种评估客户经济价值及其创造价值能力的重要方法体系。该模型主要依据用户的最近一次购物时间、购物次数以及每次平均消费金额等三项关键数据点来描述其客户的整体价值状况。
总结
- 明确问题范围
- 获取并整理所需的数据集
- 经过清洗和整理的数据集,在结合数据分析与可视化的基础上揭示了有助于业务改进的关键见解
- 利用聚类分析与预测模型相结合的方法实现基于数据驱动营销策略的有效实施
