python数据分析中使用pandas进行预处理的清洗数据

阅读量：

清洗数据

一、检测与处理重复值
1.记录重复
①利用list去重

复制代码

    import pandas as pd
    detail=pd.read_csv('../数据分析/detail.csv',index_col=0,encoding='gbk')
    #定义去重函数
    def delRep(list1):
    list2=[]
    for i in list1:
        if i not in list2:
            list2.append(i)
    return list2
    #去重
    dishes=list(detail['dishes_name']) #将dishes_name从数据框中提取出来
    print('去重前菜品总数为：',len(dishes))
    dish=delRep(dishes) #使用函数去重
    print('去重之后的菜品总数为：',len(dish))

②使用set的特性去重

复制代码

    print('去重前菜品总数为：',len(dishes))
    dish_set=set(dishes) #利用set 的特性去重
    print('去重之后的菜品总数为：',len(dish_set))

③ 使用drop_duplicates方法去重

复制代码

    #对dishes_name 去重
    dishes_name=detail['dishes_name'].drop_duplicates()
    print('drop_duplicates方法去重之后：',len(dishes_name))

2.特征重复
①求出counts和amounts两列数据的Kendall法相似度矩阵

复制代码

    import pandas as pd
    detail=pd.read_csv('../数据分析/detail.csv',index_col=0,encoding='gbk')
    corrDet=detail[['counts','amounts']].corr(method='kendall')
    print('矩阵',corrDet)

②求出dishes_name,counts,amounts 这3个特征的person法相似度矩阵

复制代码

    corrDet1=detail[['dishes_name','counts','amounts']].corr(method='pearson')
    print('3个特征',corrDet1)

③使用DataFrame.equals 方法去重

复制代码

    def FeatureEquels(df):  #定义求取特征是否完全相同的矩阵的函数
    dfEquals=pd.DataFrame([],columns=df.columns,index=df.columns)
    for i in df.columns:
        for j in df.columns:
           dfEquals.loc[i,j]=df.loc[:,i].equals(df.loc[:,j])
    return dfEquals
    detEquals=FeatureEquels(detail)
    print(detEquals.iloc[:5,:5])

④通过遍历的方式进行数据筛选

复制代码

    #遍历所有数据
    lenDet=detEquals.shape[0]
    dupCol=[]
    for k in range(lenDet):
    for l in range(k+1,lenDet):
        if detEquals.iloc[k,1]& (detEquals.columns[1] not in dupCol):
            dupCol.append(detEquals.columns[1])
    print('需要删除的列：',dupCol)
    detail.drop(dupCol,axis=1,inplace=True)
    print('删除多余列后detail 的特征数目为：',detail.shape[1])

二、检测与处理数据的缺失值应用 isnull 和 notnull 的方法进行缺失数据的鉴别

复制代码

    print('detail每个特征缺失的数目为：\n',detail.isnull().sum())
    print('detail每个特征非缺失的数目为：\n',detail.notnull().sum())

1.删除法

复制代码

    print('去除缺失的列 前detail的形状为：',detail.shape)
    print('去除缺失的列 后detail的形状为：',detail.dropna(axis=1,how='any').shape)

2.替换法

复制代码

    detail=detail.fillna(-99)
    print('detail每个特征缺失的数目为：\n',detail.isnull().sum())

3.插值法

复制代码

    #线性插值
    import numpy as np
    from scipy.interpolate import interp1d
    x=np.array([1,2,3,4,5,8,9,10])
    y1=np.array([2,8,18,32,50,128,162,200])
    y2=np.array([3,5,7,9,11,17,19,21])
    LinearInsValues1=interp1d(x,y1,kind='linear')
    LinearInsValues2=interp1d(x,y2,kind='linear')
    print('当x为6，7时，使用线性插值y1为：',LinearInsValues1([6,7]))
    print('当x为6，7时，使用线性插值y2为：',LinearInsValues2([6,7]))
    #拉格朗日插值
    from scipy.interpolate import lagrange
    LargeInsValues1=lagrange(x,y1)
    LargeInsValues2=lagrange(x,y2)
    print('当x为6，7时，使用拉个朗日插值y1：',LargeInsValues1([6,7]))
    print('当x为6，7时，使用拉个朗日插值y2：',LargeInsValues2([6,7]))
    #样条插值
    from scipy.interpolate import spline
    SplineInvalues1=spline(x,y1,xnew=np.array([6,7]))
    SplineInvalues2=spline(x,y2,xnew=np.array([6,7]))
    print('当x为6，7时，使用样条插值y1为：',SplineInvalues1)
    print('当x为6，7时，使用样条插值y2为：',SplineInvalues2)

三、检测与处理数据的异常值
1.3δ原则（正态分布）

复制代码

    def outRange(Ser1):
    boolInd=(Ser1.mean()-3*Ser1.std()>Ser1) | (Ser1.mean()+3*Ser1.var()<Ser1)
    index=np.arange(Ser1.shape[0])[boolInd]
    outrange=Ser1.iloc[index]
    return outrange
    outlier=outRange(detail['counts'])
    print('使用3δ原则判定异常值个数为：',outlier.shape[0])
    print('异常值的最大值为：',outlier.max())
    print('异常值的最小值为：',outlier.min())

#2.箱线图分析

复制代码

    import matplotlib.pyplot as plt
    plt.figure(figsize=(10,8))
    p=plt.boxplot(detail['counts'].values,notch=True)
    outlier1=p['fliers'][0].get_ydata()
    plt.savefig('../数据分析/菜品异常数据识别.png')
    plt.show()
    print('销售量数据异常值个数为：',len(outlier1))
    print('销售量数据异常值的最大值为：',max(outlier1))
    print('销售量数据异常值的最小值为：',min(outlier1))

全部评论 (0)

还没有任何评论哟~

python数据分析中使用pandas进行预处理的清洗数据

清洗数据一、检测与处理重复值 1.记录重复 ①利用list去重 importpandasaspd detail=pd.readcsv'../数据分析/detail.csv',indexcol=0,e...

python数据预处理：使用pandas 进行数据清洗

问题：介绍数据清洗方法。。解答：所谓数据清洗主要处理的是数据中的缺失值、异常值和重复值：缺失值处理数据缺失值指由于各种原因导致数据中存在的空缺值：数据库中的null，python返回对象no...

数据预处理|数据清洗|使用Pandas进行异常值清洗

数据预处理数据清洗使用Pandas进行异常值清洗使用Pandas进行异常值清洗 1\.异常值检测 1.1简单统计分析 1.2散点图方法 1.33σ原则 1.4箱线图 2\.异常值处理 2.1直接删除...

数据预处理|数据清洗|使用Pandas进行缺失值清洗

数据预处理数据清洗使用Pandas进行缺失值清洗数据预处理缺失值清洗 1\.缺失值的检测与统计 2\.删除缺失值 3\.填充缺失值数据预处理（DataPreprocessing）是指在数据挖掘之前...

使用Pandas进行数据清洗与预处理

如何使用Python的Pandas库来进行数据清洗和预处理。Pandas是一个非常强大的数据处理工具，广泛应用于数据分析领域。下面是一篇关于使用Pandas进行数据清洗的文章大纲和主要内容。在数据分...

Python 用pandas 进行数据清洗处理

1.数据读取 importpandasaspd importnumpyasnp importpymongo data=pd.DataFramepd.readexcel'000.xlsx',index=...

Python数据预处理实验：实验三使用pandas进行数据清洗

实验三使用pandas进行数据清洗一、实验目的练习使用pands完成缺失值数据处理、重复值数据处理、异常值数据处理和格式不一致数据处理。二、实验内容根据下面内容完成以下任务： 1任务一：网上招...

python数据分析中使用pandas进行预处理的转换数据

转换数据（1）哑变量处理类别型数据（2）使用等宽法、等频法和聚类分析方法离散化连续型数据 1.哑变量处理类别型数据 importpandasaspd importnumpyasnp detail=...

python数据分析中使用pandas进行预处理的合并数据

合并数据有三种合并数据方法： 1.横向或纵向堆叠合并数据 2.主键合并数据 3.重叠合并数据（1.横向堆叠横向堆叠 importnumpyaspy importpandasaspd detail...

2、Python数据分析：数据的清洗预处理

一、重复值处理 1、检测重复值 importpandasaspd ''' 使用duplicated方法可以检测DataFrame中的重复行。该方法返回一个布尔Series，表示每一行是否为重复行。

是否确定退出登录?

python数据分析中使用pandas进行预处理 的清洗数据

清洗数据

全部评论 (0)

相关文章推荐

python数据分析中使用pandas进行预处理 的清洗数据

python数据预处理： 使用pandas 进行数据清洗

数据预处理|数据清洗|使用Pandas进行异常值清洗

数据预处理|数据清洗|使用Pandas进行缺失值清洗

使用Pandas进行数据清洗与预处理

Python 用pandas 进行数据清洗处理

Python数据预处理实验：实验三 使用pandas进行数据清洗

python数据分析中使用pandas进行预处理 的 转换数据

python数据分析中使用pandas进行预处理 的合并数据

2、Python数据分析：数据的清洗预处理

python数据分析中使用pandas进行预处理的清洗数据

python数据分析中使用pandas进行预处理的清洗数据

python数据预处理：使用pandas 进行数据清洗

Python数据预处理实验：实验三使用pandas进行数据清洗

python数据分析中使用pandas进行预处理的转换数据

python数据分析中使用pandas进行预处理的合并数据