大数据分析与挖掘浅谈
1、大数据(big data):指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产;在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)Veracity(真实性)
2、数据分析:是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。数据分析的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,并使得数据分析得以推广。数据分析是数学与计算机科学相结合的产物。
3、数据挖掘(英语:Data mining):又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。简而言之:大数据是范围比较广的数据分析和数据挖掘。按照数据分析的流程来说,数据挖掘工作较数据分析工作靠前些,二者又有重合的地方,数据挖掘侧重数据的清洗和梳理。数据分析处于数据处理的末端,是最后阶段。数据分析和数据挖掘的分界、概念比较模糊,模糊的意思是二者很难区分。大数据概念更为广泛,是把创新的思维、信息技术、统计学等等技术的综合体,每个人限于学术背景、技术背景,概述的都不一样。
4.运算符
1、算术运算符
加 减 -乘 除 /取余 %取整 //异号 -不变号 +取绝对值 abs(x)转为整数 int(x)转为浮点数 float(x)复数 complex(re,im)共轭复数 c.conjugate()返回一个数值对(x//y,x%y) divmod(x,y)x的y次幂(两种写法) x**y,pow(x,y)
二、比较运算符小于(<),小于等于(<=),等于(),大于(>),大于等于(>=),不等于(!=),is(判断两个标识符引用一个对象) ,is not(不是同一个对象)1.八个比较运算符优先级相同2.python允许链式比较 x<y<z,它相当于 x<y and y<z3.复数不能用于比较大小,只能用于比较相等
三、逻辑运算符x or y 短路运算符 (它只有第一个运算数为false才计算第二个运算数的值)x and y 短路运算符 (它只有第一个运算数为True才进行第二个运算数的值)not x not的优先级低(not ab 相当于 not(a==b)),a = not b 是错误的
2、位运算符python中的位运算符是把数字看作是二进制来进行计算的& 按位与运算符:参数运算的两个值(二进制),如果两个相应为都为1,则改为的结果为 1,否则为0| 按位或运算符:参与运算的两个值,只有对应位的两个数,有一个为1,结果为1^ 按位异或运算符:对应位数数值不同为1,相同为0~ 按位取反运算符:针对单个数,二进制格式,相应的位的数值取反,1变0,0变1<< 左移动运算符:各二进制位左移若干位,高位丢弃,低位补0>> 右移动运算符:各二进制位又移若干位
二进制数:默认8位,0b前缀标识,从地位到高位读取,从右到左写,不够的位数补0,直到读取8位为止调用python二进制函数bin,0b代表二进制标识符,二进制数默认8位,则a,b对应的二进制数为:a = 25 = 0001 1001 b = 62 = 0011 1110 a&b =24= 0001 1000a|b =63 = 0011 1111 a^b = 39 = 0010 0111~a = -26 = 1110 0110 负数:源码:0001 1010反码:1110 0101补码:1110 0110 a<<2 = 100 = 0110 0100 a>>2 = 6= 0000 0110
3、赋值运算符= 简单的赋值+= 加法赋值运算-= 减法赋值运算= 减法赋值运算/= 除法赋值运算%= 取余法赋值运算**= 幂赋值运算//= 取整除赋值运算
六、成员运算符python提供了成员运算符,测试一个元素是否在序列(squence)中in 如果指定元素在序列中,返回True,否则返回Falsenot in 如果指定元素不在序列中,返回True,否则返回False
