大数据挖掘与分析
**
第一讲
一、大数据前景
大数据
大数据指无法在可承受时间内使用常规软件工具进行捕捉、管理和处理的数据集合,需要新处理模式才能有更强的决策力,洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产
数据挖掘
是有组织有目的地收集数据,通过分析数据使之成为信息,从而在大量数据中寻找潜在规律以形成规则或知识的技术
数据分析
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对大局加以详细研究和概括总结的过程
大数据发展前景
目前在互联网领域,大数据技术已经得到了较为广泛的应用。大数据的影响不仅仅体现在互联网领域,也体现在金融、教育、医疗等诸多领域。在人工智能研发领域,大数据也起到了重要的作用,尤其在机器学习、计算机视觉和自然语言处理等方面,大数据正在成为智能化社会的基础。

Python语言特征
提到大数据,就离不开pyhton,这门语言在大数据中发挥着不可获取的作用。
python是一种面向对象的解释性计算机程序设计语言,语法简洁清晰,具有强大和丰富的库。python通常被称为胶水语言。是一门动态解释性的强数据类型的编程语言。
编写一个简单的python程序

第二讲 基本知识
1.变量,语句,缩进,注释
(1)变量
变量是存储在内存中的值,ython解释器会根据变量类型去开辟不同的内存空间进行变量值的存储,当你的程序需要存储值内容的时候就需要用到变量。
命名规则:
- 标识符只能有数字、字母下划线组成。
- 标识符的第一个字符不能是数字
- 标识符区分大小写
- 不要用关键字作为标识符
- 小写字母,单词之间用_分割
(2)语句
通常一行编写一个语句,如print(“hello”)。python语句没有结束符,也可以根据习惯在语句后面使用分号。当把多个语句写在一行,就要用分号隔开。
语句特征:执行修改操作
(3)缩进
在代码前添加空格,可以是程序易读,有层次感。但在python中,缩进并不是任意的,平级的语句缩进必须相同。
(4)注释
单行注释:#号
多行注释:三引号(单引号或双引号都可以)
第三讲 条件语句和循环语句
-
数据类型
六种标准数据类型
(1)number(数字):int,float,bool
(2)str(字符串)使用单引号或双引号括起来
(3)list(列表)元素可重复,可修改,写在[]之间。起始索引为0,-1为末尾索引。+是列表连接运算符,*是重复操作
(4)tuple(元组)与列表类似,不同之处在于元组的元素不能修改,写在小括号里,元素之间用逗号隔开。
(5)set(集合)是一个无序不重复元素的序列。基本功能是进行成员关系测试和删除重复元素,使用{}或set()函数创建集合
(6)dict(字典)列表是有序对象集合,字典是无序对象集合。两者之间区别在于,字典的元素通过键来存去,不是通过偏移存取。
不可变数据类型
(1)number
(2)str
(3)元组
可变数据类型
(1)list
(2)dict
(3)set -
运算符
(1)算术运算符

(2)比较运算符

(3)赋值运算符

(4)逻辑运算符

(5)成员运算符

(6)身份运算符

-
if语句

-
for语句(循环语句)

break语句:跳出本层循环体
continue语句:跳过本次循环体剩余语句
pass语句:保持程序结构的完整性
第四讲 数字猜谜实例
- 思路分析
设置目标数字
设置接收变量,并接收输入内容
对接收内容,进行数据类型转换
判定接收数据与目标数字关系,并提示
若接收数据与目标数字相同,提示成功,并终止程序
若接收数据与目标数字不同,提示数据关系,在循环执行步骤2-6
2.运行演示

第五讲 列表和元组
- 序列
序列式Python中最基本的数据结构,其中每一个元素都有它的位置-索引。索引从零开始。
常见的序列有列表,元组,字符串。可以对他们进行的操作有索引,切片,加,乘,检查成员。
python已经内置确定序列的长度以及确定最大和最小的元素的方法。
列表是最长用的python数据类型,可以作为一个方括号内的逗号分隔值出现。列表的数据项不需要具有相同的类型,创建列表只要把逗号分隔的不同的数据类型使用方括号括起来即可。
如 list_1=[‘a’,1,[1,2]]
常用内置函数
长度len()
最小值min()
最大值max()
列表
特点:可修改,可重复,可嵌套,支持多种数据类型
(1)函数list()
(2)基本列表操作
创建:name=list()或[]
增:append(在列表末尾添加新的对象) extend(在列表末尾一次性追加另一个序列中的多个值)
删:del clear pop(默认移除最后一个有uansu,并返回钙该元素的值) remove(移除某个值的第一个匹配项)
改:name[1]=2
查:1.count(返回元素在列表中出现的次数),index(找出第一个匹配项的索引位置)
2.min,max,len,in not in
(3)其他操作
反转 reverse
排序 sort(数据类型必须相同)
元组
元组与列表类似,元组的元素不能修改。元组使用小括号,列表使用方括号。
特点:可重复,不可修改,可嵌套,支持多种数据类型。
**
