python批量读取文件夹中的所有excel文件-python遍历文件夹下所有excel文件
在大数据处理过程中,通常会遇到大量表格数据。在导入数据至列表时,在处理各种算法分析方面有着自己的独特方法。具体说明一下自己所做的工作。
1.如何读取excel文件
网上的版本很多,在xlrd模块基础上,找到一些源码:
import xdrlib ,sys
import xlrd
def open_worksheet(workbook="C:/Users/flyminer/Desktop/新建Excel工作表.xlsx"):
data = xlrd.open_workbook(file)
return data
#基于索引获取Excel表格中的数据
参数为file: Excel文件路径,
即对应于该表格中各列名称所在的行号,
by_index为表格中的索引信息
def generate_excel_table_index(file="C:/Users/flyminer/Desktop/新建 Microsoft Excel 工作表.xlsx",
colnameindex="列名索引值",
by_index="基于索引键值"):
data = open_excel(file)
table = data.sheets()[by_index]
nrows = table.nrows #行数
ncols = table.ncols #列数
colnames = table.row_values(colnameindex) #某一行数据
list =[]
for rownum in range(1,nrows):
row = table.row_values(rownum)
if row:
app = {}
for i in range(len(colnames)):
app[colnames[i]] = row[i]
list.append(app)
return list
#通过名称提取工作表中的数据 参数:file:Excel文件路径 colnameindex:对应的工作表列索引位置 ,by_name:指定的工作表名称
def excel_table_byname(workbook_path="C:/Users/flyminer/Desktop/新建 Microsoft Excel 工作表.xlsx", column_index_position=0, table_name_parameter=u'Sheet1'): None
data = open_excel(file)
table = data.sheet_by_name(by_name)
nrows = table.nrows #行数
colnames = table.row_values(colnameindex) #某一行数据
list =[]
for rownum in range(1,nrows):
row = table.row_values(rownum)
if row:
app = {}
for i in range(len(colnames)):
app[colnames[i]] = row[i]
list.append(app)
return list
def main():
tables = excel_table_byindex()
for row in tables:
print(row)
tables = excel_table_byname()
for row in tables:
print(row)
if name=="main":
main()
最后一句是重点,所以这里也给代码人点个赞!
最后一条指令使得代码中的各个函数都能得到良好的复用。为了说明方便起见,在程序中导入a模块后就可以直接调用a.excel_table_byname和a.excel_table_byindex这两个非常实用的功能模块。
2.然后是遍历文件夹取得excel文件以及路径:,原创代码如下:
import os
import xlrd
import test_wy
xpath="E:/唐伟捷/电力/电力系统总文件夹/舟山电力"
xtype="xlsx"
typedata = []
name = []
raw_data=[]
file_path=[]
def collect_xls(list_collect,type1):
#取得列表中所有的type文件
for each_element in list_collect:
if isinstance(each_element,list):
collect_xls(each_element,type1)
elif each_element.endswith(type1):
typedata.insert(0,each_element)
return typedata
#读取所有文件夹中的xls文件
def read_xls(path,type2):
#遍历路径文件夹
for file in os.walk(path):
for each_list in file[2]:
file_path=file[0]+"/"+each_list
该函数通过遍历生成三个元素:主目录路径、子目录结构以及包含文件的列表;通过将主目录路径与子目录层级结合,并引用每个文件名构造完整的文件路径
name.insert(0,file_path)
all_xls = collect_xls(name, type2)
#遍历所有type文件路径并读取数据
for evey_name in all_xls:
xls_data = xlrd.open_workbook(evey_name)
for each_sheet in xls_data.sheets():
sheet_data=test_wy.excel_table_byname(evey_name,0,each_sheet.name)
#请参考读取excel文件的代码
raw_data.insert(0, sheet_data)
print(each_sheet.name,":Data has been done.")
return raw_data
a=read_xls(xpath,xtype)
print("Victory")
欢迎各种不一样的想法。
以上是我文章的主要内容,并旨在帮助读者提高学习效率。感谢大家的支持与关注。
