人人都需有的数据思维
在樊登读书上,读到《数据思维》一书,做下记录。
互联网已逐步发展成熟,物联网正逐步构建完善的基础架构,每一天都有无数个体与物联设备在 generating 海量 data,然而,在实际应用场景中,很少有人能够深入挖掘这些 data 的价值并高效地将其应用到实际工作中.
以数据为基础, 先知视角由内行人率先实现, 但有些人或企业仍在数据的宝库中迷失方向, 缺乏前进的方向.
从广告的精准投放,到预测并影响美国总统大选,数据为何如此神奇。
数据思维的核心价值:建立将业务问题转换为可分析问题的数据思维体系,在此基础之上才能实现商业价值的创造
业务数据化、数据业务化。业务要能产出数据,数据反哺业务。
一、朴素的数据价值观
1.什么是数据
所有能够被电子化记录的事物都可以统称为'数据'。尽管这个定义看似较为狭窄,在当今时代背景下它已经得到了显著扩展。具体而言,在这个定义下不仅包括语音输入的声音这一类声音信息,并且也涵盖了数码相机拍摄的照片、手机录制的视频等多样的信息载体。这也反映了数据产业模式的变化:不同时代的存储方式对'数据'有不同的处理方法。同时值得注意的是,在这个过程中'数据'的概念也在不断演变:每个时代的主体对于同一份文件所蕴含的信息价值有着本质的不同理解与应用方式。
2.数据的价值
对于个人和企业而言,数据的价值必定与业务的核心需求紧密相连。唯有当我们清晰阐述数据的价值时,在线用户提供才会愿意接受数据的代价;而企业才有可能从数据分析中获取突破的关键,在此过程中实现业务利润的增长。
数据的价值可以从以下三个方面去结合自身的业务考虑
- 收入:最典型的就是百度的付费搜索广告...通过对用户的输入数据进行深入分析...带来大量流量...这些收入的增长都是由数据的价值带来的。
- 支出:比如某个电视生产厂家...他们在分析某款电视中用户使用传统VGA视频接口的数据后发现...发现使用该接口的用户占比仅为百分之一...因此他们决定取消对该接口的支持...这也是数据分析带来的价值。
- 风险控制:大家都知道很多银行信用卡办理都有网上申请...在线申请的风险更高...通过数据分析可以帮助他们在线识别优质客户并降低商业风险为公司带来间接的价值
3.什么是数据思维
我们认识了"数据"这一概念,在商业活动中具有重要价值。那么如何界定并形成"数据思维"这一认知呢?其核心在于基于系统的方法论框架下,将复杂的业务问题转化为可被数据分析的问题模型。
- 掌握数据思维的核心要义在于理解并运用回归分析这一统计学专业术语。回归分析其核心在于揭示两种或多种变量间相互依存的定量关系这一统计规律。
- 在"道"的层面上面,回归分析作为一种思维方式,能够帮助我们从战略高度凝练业务问题的本质特征,将其转化为可量化的数据分析课题;而在"术"的层面上面,回归分析则是一套系统化的数据分析工作方法论体系。
- 定义数据可分析课题:要实现对此的有效定义,首要任务是准确识别出其中所包含的关键变量。
1.因变量Y:因为其他变量改变而改变的变量,这是业务的核心诉求
自变量X即用于解释因变量Y的相关因素;换言之,在这种关系中,
表明自变量X的变化会导致因变数Y的变化;
并体现出数据分析者对业务运作的理解。
总结一下就是:数据思维的本质在于将实际问题转化为数据分析的核心任务,在纷繁复杂的商业环境中, 通过识别关键绩效指标(Y), 精准地把握住影响这些指标的主要驱动因素(X), 从而明确哪些因素对目标结果产生显著影响. 一旦明确了这些关键要素之间的关系和相互作用机制, 则能有效地解决相关商业难题.
二、大数据到底是什么
当我们缺乏对大数据分析的了解时
1.大数据和统计学的关系
- 统计学的基础在于建立模型来分析数据,并通过这些模型来描述业务活动中的不确定性问题,在大数据时代这一贡献意义更加显著
- 面对海量的数据信息时, 抽样调查在大数据时代显得愈发不可或缺
2.大数据的准确度如何
-
预测不准与准确并存,在科学领域中精确预测的现象并不多见。
其有效性必然受到限制。
这种上限是由科学的本质决定的。
任何声称达到百分之百准确度的数据分析结果必然是经不起推敲的。
科学的本质即统计学研究中包含了大量的相关关系,
其中只有非常稀有的因果关系,
但是这种因果关系的重要性是无法替代的。 -
相关关系是指客观现象之间的一种非确定性的相互依存状态。
例如:公鸡叫与太阳升起看似相关但无因果联系。
为了防止太阳升起而关闭公鸡是不可能实现的。 -
因果关系指的是某个事件的发生导致另一个事件发生的情况。
例如:按下关机键会导致电脑关闭。
在实际生活中,人们常常会把相关关系和因果关系搞混在一起。即使一些看似没有直接关联的事件A和B,由于他们相伴发生,我们依然可能会误以为两者之间存在因果联系。因此,区分清楚相关关系与因果关系,不仅是打开数据分析之门的重要钥匙,也是培养科学素养、抵制伪科学思想的重要基础。
三、人人应有数据思维
为什么培养数据思维?它可以让我们更好地理解商业价值。如今我们生活在数字化时代,在日常生活中不可避免地会接触到各种形式的数据。如果不掌握数据分析能力(即不具备数据分析素养),那么就像未受专业指导而进行股票投资一样会被市场误导;而在业务发展方面(具体来说),由于缺乏相关依据的支持(即难以识别发展机会),也很难把握住提升空间。
- 提升团队协作效能:在工作场景中我们经常遇到这样的情况:专业术语专家与实际应用场景负责人之间存在沟通障碍(可能涉及数据分析问题也可能涉及非数据分析问题),这种隔阂难以有效突破。要解决这一挑战不仅需要专业人士能够超越自身专业知识的局限性还需要业务部门负责人能够消除对数据分析的疑虑公司内部应当自上而下地推动形成数据分析意识。管理层应明确哪些事项与数据分析相关而业务部门应有能力清晰传达核心诉求。
- 识别市场机遇:掌握数据分析思维有助于创业者抓住市场机遇。我们需要采取以下三个步骤来实现这一目标
1. 业务目前的方向,哪些数据能帮助我们,需要产出什么数据
2. 如果数据很重要,明确业务的核心诉求Y,并洞察影响了因变量的X
3. 在战略层面上,保障Y和X的高质量的供给,长时间的积累
- 数据思维:在日常生活场景中培养数据思维。
假如一个人既不属于创业者,在公司内部业务也不涉及数据分析工作的话,
这样的个人又该如何利用这种思维方式?
事实上,在日常生活中常见的各种小问题,
这些场景下都可以为你提供一些思路。
首先,
培养数据分析能力能够帮助你形成一种有目标、有方向的思考习惯,
明确分析的目标是什么,
关注哪些因素(因变量)是关键。
确定了目标之后,
你的注意力就可以聚焦于相关的自变量X上,
从而避免被大量无关的信息淹没,
不再陷入无谓的迷茫状态中。
四、各种数据分析方法
此时此刻,在这里阅读的人们或许对数据思维已经产生了一定的兴趣。我们应当系统性地概述这些常用的分析工具,并针对那些对此领域充满热情并渴望深入了解的专业技术人才而言,在掌握基本概念后深入学习各个具体分析方法和相关工具是必经之路。通过实践操作这些工具能够帮助我们更好地理解和应用数据分析的方法。
一、回归分析
从‘术’的角度来看,在技术层面而言,
回归分析涵盖了多种不同的统计模型。
具体包括以下五种类型:
线性回归主要用于研究连续型数值变量之间的关系
0-1 回归用于处理二元结果变量的分类问题
定序 回归适用于处理有序多类别结果变量的情况
计数 回归则用于研究离散型非负整数值结果变量的情况
而生存 分析则关注事件发生的时间节点
该方法被称为普通线性回归的一种形式,在其核心特点在于:因变量Y必须属于连续型数据范畴;而对于影响因变量X的自变量而言,则无需过多限制条件即可进行应用。这种统计模型广泛应用于金融领域如股票投资中,在客户 lifetime value(CLV)分析中也具有重要应用价值,并且在医疗与健康相关的研究领域中同样发挥着重要作用。
对于因变量Y而言,在这种情况下仅存在两种可能的取值。
定序回归是一种用于分析因变量Y为定序数据(涉及顺序的数据)的统计模型类型。例如,在像豆瓣这样的平台中常用于电影评论打分系统(采用1到5颗星评分)的应用场景中就存在这种需求;常见的应用场景包括:电影评分评级系统、电商产品满意度评分系统等
计数回归:响应变量Y被定义为一个离散型数值(非负整数),相应的回归分析则被称为计数回归模型。这种统计方法广泛应用于客户关系管理领域中的RFM模型中,在特定时间段内统计客户的来访频率以评估客户价值
生存回归也被简称为生存数据分析模型(SWM),即以因变量Y表示某种现象或个体存续存活了多少时间的数据类型为研究对象的一种统计分析方法。其中Y代表的是某种事件发生的时间间隔长度,在实际应用中常用于分析动物寿命、产品使用寿命以及创业公司的经营持续时间等现实问题。
二、数据可视化
核心的数据展示工具即为统计图表。一张优质的数据图表应当满足以下四个关键指标:精确度高(data precision)、实用性强(data utility)、简明扼要(data succinctness)、视觉效果佳(visual appeal)。常见的数据图表类型包括但不限于条形图(bar chart)、堆叠条形 chart (stacked bar chart) 1 2 3 4 /堆叠条形图表/堆叠式条形图表/stacked bar graph/stacked bar charts, 饼 chart (pie chart)/pie charts/pie graph, 直方 diagram (histogram)/histograms/histograms, 折线 chart (line chart)/line charts/line graphs, 散点 map (scatter map)/scatter maps/scatter plots, 象限 chart (bubble chart)/bubble charts/bubble graphs, 茎叶 plot (stem-and-leaf plot)/stem-and-leaf plots/stem and leaf plots 等。
三、机器学习
机器学习领域包含多个先进级的数据分析技术作为基础支撑体系,在机器学习算法课程体系中占据核心地位。涵盖的主要技术包括:概率分类器、决策树及其改进型如随机森林、神经网络分析技术及其延伸方向如深度学习领域、聚类分析中的K均值算法等。
四、非结构化数据
数据式结构化的还是非结构化的,这是一个相对的,主观的概念。非结构化的数据并不代表着我们不能对它进行数据分析。举例说明:
以《倚天屠龙记》中,张无忌到底爱谁,就可以利用分数分析的方法得到答案。
- 首先把小说的主要人物和他们的称谓做提取
- 确定自然段为分析单位,接下来就可以将业务问题:张无忌到底爱谁定义为数据可分析问题
- 对文章中人物的出场频次、出场时间、亲密程度等不同角度进行分析。
总结:阅读任何一本书都有助于增进认知水平。尽管它通常不会提供很多系统性的方法论指导,并且也不会立竿见影地改变我们的生活方式,在学习过程中可能会遇到一定难度。然而偶尔走出自身的舒适区,并尝试去理解那些此前未曾触及过的问题,在获得新奇感悟的同时也会感到欣喜若狂——这不正是一种进步的表现吗?
