Python数据分析和数据挖掘
下载数据分析助手jupyter notebook
在命令行cd 打开需要保存的文件目录启动jupyter notebook
Jupyter Notebook 内置的魔法命令
-
%run
打开文件目录下的python文件 -
%load
可以调用打开python文件中的函数 -
%timeit
显示这个段落运行的时间,
%timeit 后面只跟一句代码
测试代码块 用%%timeit
#在python中使用列表生成式比for循环高效 -
%time
#只会测量一次代码执行的时间 -
%%html
#解析html文件 -
%%js
#解析js -
%%writefile
#写入文件操作
数据科学模块Numpy
• Nmupy本质就是ndarray
• 多维矩阵
- 维数组看做向量vector–点和直线
- 维数组看做2维矩阵–表和平面
- 维数组看做3维矩阵–空间
Python中LIST数据使用比较灵活,但可存放数据类型多,处理速度过慢
可使用Python中另一个数组数据array
- array数组可生成的数组里的数据时固定类型的数据
- 处理多维数组,矩阵时操作和运算不方便
引入numpy.ndarray
整数类型的ndarray放入浮点数、小数时,会取整(不是四舍五入)
方便处理多维数组或矩阵之间的运算
在处理多维度数组或矩阵,运算效率高
np.arange()
生成矩阵和随机数
矩阵和随机数的生成¶
np.array([1,2,3])
array([1, 2, 3])
np.array(range(10))
array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
np.array(10)
array(10)
np.arange(10)
array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
np.arange(2,20,3)
array([ 2, 5, 8, 11, 14, 17])
np.arange(2,20,0.3)
np.arange(2,20,0.3)
array([ 2. , 2.3, 2.6, 2.9, 3.2, 3.5, 3.8, 4.1, 4.4, 4.7, 5. ,
5.3, 5.6, 5.9, 6.2, 6.5, 6.8, 7.1, 7.4, 7.7, 8. , 8.3,
8.6, 8.9, 9.2, 9.5, 9.8, 10.1, 10.4, 10.7, 11. , 11.3, 11.6,
11.9, 12.2, 12.5, 12.8, 13.1, 13.4, 13.7, 14. , 14.3, 14.6, 14.9,
15.2, 15.5, 15.8, 16.1, 16.4, 16.7, 17. , 17.3, 17.6, 17.9, 18.2,
18.5, 18.8, 19.1, 19.4, 19.7])
np.zeros()
初始化一个 矩阵,可以一维可以多维
矩阵中数据都是0

shape
生成多维矩阵

np.ones()

np.full

生成等差数列np.linspace

生成随机数

ndarray基础操作


取值操作

切片
一维

二维


矩阵的合并

聚合操作

统计与分析模块Pandas
- Pandas的介绍与安装
- Pandas中对数据的选取操作
- Pandas加载数据
- Pandas排序与合并
- Pandas数据汇总
- Pandas时间序列
Pandas的介绍与安装
- 安装pip install pandas
- Series :列
- DataFrame :表
Pandas中对数据的选取操作
- Index
- Columns
- loc
- iloc


























pandas 导入数据






























对exlcel表进行操作





time and datetime




pandas时间序列













数据可视化Matplotlib







关于 matplotlib的使用方法介绍的网址
https://www.matplotlib.org.cn/
绘制男女升高比例散点图












折线图









绘制柱状图和饼图







直方图


箱线图






子图

子图小练习







横向柱状图




运用numpy,pandas,matplotlib做案例
服务器日志数据分析




































