Advertisement

python批量读取文件夹中的所有excel文件-python遍历文件夹下所有excel文件

阅读量:

在大数据处理过程中,通常会遇到大量表格数据。在导入数据至列表时,在处理各种算法分析方面有着自己的独特方法。具体说明一下自己所做的工作。

1.如何读取excel文件

网上的版本很多,在xlrd模块基础上,找到一些源码:

import xdrlib ,sys

import xlrd

def open_worksheet(workbook="C:/Users/flyminer/Desktop/新建Excel工作表.xlsx"):

data = xlrd.open_workbook(file)

return data

#基于索引获取Excel表格中的数据
参数为file: Excel文件路径,
即对应于该表格中各列名称所在的行号,
by_index为表格中的索引信息

def generate_excel_table_index(file="C:/Users/flyminer/Desktop/新建 Microsoft Excel 工作表.xlsx",
colnameindex="列名索引值",
by_index="基于索引键值"):

data = open_excel(file)

table = data.sheets()[by_index]

nrows = table.nrows #行数

ncols = table.ncols #列数

colnames = table.row_values(colnameindex) #某一行数据

list =[]

for rownum in range(1,nrows):

row = table.row_values(rownum)

if row:

app = {}

for i in range(len(colnames)):

app[colnames[i]] = row[i]

list.append(app)

return list

#通过名称提取工作表中的数据 参数:file:Excel文件路径 colnameindex:对应的工作表列索引位置 ,by_name:指定的工作表名称

def excel_table_byname(workbook_path="C:/Users/flyminer/Desktop/新建 Microsoft Excel 工作表.xlsx", column_index_position=0, table_name_parameter=u'Sheet1'): None

data = open_excel(file)

table = data.sheet_by_name(by_name)

nrows = table.nrows #行数

colnames = table.row_values(colnameindex) #某一行数据

list =[]

for rownum in range(1,nrows):

row = table.row_values(rownum)

if row:

app = {}

for i in range(len(colnames)):

app[colnames[i]] = row[i]

list.append(app)

return list

def main():

tables = excel_table_byindex()

for row in tables:

print(row)

tables = excel_table_byname()

for row in tables:

print(row)

if name=="main":

main()

最后一句是重点,所以这里也给代码人点个赞!

最后一条指令使得代码中的各个函数都能得到良好的复用。为了说明方便起见,在程序中导入a模块后就可以直接调用a.excel_table_byname和a.excel_table_byindex这两个非常实用的功能模块。

2.然后是遍历文件夹取得excel文件以及路径:,原创代码如下:

import os

import xlrd

import test_wy

xpath="E:/唐伟捷/电力/电力系统总文件夹/舟山电力"

xtype="xlsx"

typedata = []

name = []

raw_data=[]

file_path=[]

def collect_xls(list_collect,type1):

#取得列表中所有的type文件

for each_element in list_collect:

if isinstance(each_element,list):

collect_xls(each_element,type1)

elif each_element.endswith(type1):

typedata.insert(0,each_element)

return typedata

#读取所有文件夹中的xls文件

def read_xls(path,type2):

#遍历路径文件夹

for file in os.walk(path):

for each_list in file[2]:

file_path=file[0]+"/"+each_list

该函数通过遍历生成三个元素:主目录路径、子目录结构以及包含文件的列表;通过将主目录路径与子目录层级结合,并引用每个文件名构造完整的文件路径

name.insert(0,file_path)

all_xls = collect_xls(name, type2)

#遍历所有type文件路径并读取数据

for evey_name in all_xls:

xls_data = xlrd.open_workbook(evey_name)

for each_sheet in xls_data.sheets():

sheet_data=test_wy.excel_table_byname(evey_name,0,each_sheet.name)

#请参考读取excel文件的代码

raw_data.insert(0, sheet_data)

print(each_sheet.name,":Data has been done.")

return raw_data

a=read_xls(xpath,xtype)

print("Victory")

欢迎各种不一样的想法。

以上是我文章的主要内容,并旨在帮助读者提高学习效率。感谢大家的支持与关注。

全部评论 (0)

还没有任何评论哟~