Pandas教程:近万字讲解在Pandas中如何操作Excel
创始人
2024-12-28 11:07:51
0

目录

1. 安装与配置

2. 读取Excel文件

2.1 基本用法

2.2 指定工作表

2.3 指定单元格范围

3. 数据检查与预处理

3.1 查看数据的基本信息

3.2 数据类型检查与转换

3.3 检查缺失值

3.4 处理缺失值

4. 数据清洗与转换

4.1 重命名列

4.2 删除重复数据

4.3 数据替换

4.4 数据排序

4.5 数据分组与聚合

5. 数据选择与过滤

5.1 按标签选择

5.2 按位置选择

5.3 布尔索引

5.4 多条件过滤

6. 数据操作

6.1 添加、删除列

6.2 数据框合并

6.3 数据透视表

6.4 交叉表

7. 写入Excel文件

7.1 基本用法

7.2 指定工作表名称

7.3 指定单元格位置

7.4 处理多个工作表

7.5 设置样式和格式

8. 实战项目

8.1 读取真实Excel数据集

8.2 数据清洗与预处理

8.3 数据分析与可视化

8.4 将结果写回Excel文件

9. 性能优化

9.1 数据取样

9.2 内存优化

9.3 矢量化操作

示例1:简单数学运算

示例2:应用自定义函数

示例3:条件操作

性能对比


在数据分析和处理领域,Excel文件是常见的数据存储格式之一。Pandas库提供了强大的功能来读取、处理和写入Excel文件。本文将详细介绍如何使用Pandas操作Excel文件,包括读取、数据清洗、数据操作和写入等步骤。

 

1. 安装与配置


首先,确保你已经安装了Pandas库以及用于读写Excel文件的库(如 openpyxlxlrd)。你可以使用以下命令进行安装:

pip install pandas openpyxl xlrd

 

2. 读取Excel文件


2.1 基本用法

使用 pd.read_excel() 函数可以从Excel文件中读取数据到DataFrame。以下是一个基本示例:

import pandas as pd  # 读取Excel文件 df = pd.read_excel('data.xlsx') print(df.head()) 

2.2 指定工作表

如果Excel文件包含多个工作表,可以使用 sheet_name 参数指定要读取的工作表:

# 读取名为 'Sheet1' 的工作表 df = pd.read_excel('data.xlsx', sheet_name='Sheet1') print(df.head()) 

2.3 指定单元格范围

可以使用 usecols 参数指定要读取的列范围,使用 skiprowsnrows 参数指定要跳过的行和读取的行数:

# 读取第1到第3列,跳过前2行,读取10行 df = pd.read_excel('data.xlsx', usecols="A:C", skiprows=2, nrows=10) print(df.head()) 

3. 数据检查与预处理


3.1 查看数据的基本信息

使用 head()tail()info()describe() 函数可以查看数据的基本信息:

print(df.head())  # 显示前5行 print(df.tail())  # 显示后5行 print(df.info())  # 显示数据类型和缺失值信息 print(df.describe())  # 显示统计信息 

3.2 数据类型检查与转换

可以使用 dtypes 属性查看数据类型,并使用 astype() 函数进行类型转换:

print(df.dtypes) df['Column1'] = df['Column1'].astype('int') 

3.3 检查缺失值

使用 isnull()sum() 函数检查缺失值:

print(df.isnull().sum()) 

3.4 处理缺失值

可以使用 fillna() 函数填充缺失值,或使用 dropna() 函数删除包含缺失值的行或列:

# 填充缺失值 df.fillna(0, inplace=True)  # 删除包含缺失值的行 df.dropna(inplace=True) 

4. 数据清洗与转换


4.1 重命名列

使用 rename() 函数重命名列:

df.rename(columns={'OldName': 'NewName'}, inplace=True) 

4.2 删除重复数据

使用 drop_duplicates() 函数删除重复数据:

df.drop_duplicates(inplace=True) 

4.3 数据替换

使用 replace() 函数进行数据替换:

df['Column1'].replace(10, 20, inplace=True) 

4.4 数据排序

使用 sort_values() 函数进行数据排序:

df.sort_values(by='Column1', ascending=False, inplace=True) 

4.5 数据分组与聚合

使用 groupby()agg() 函数进行数据分组与聚合:

grouped = df.groupby('Category') result = grouped['Value'].agg(['mean', 'sum']) print(result) 

5. 数据选择与过滤


5.1 按标签选择

使用 loc 按标签选择数据:

subset = df.loc[df['Column1'] > 10] print(subset) 

5.2 按位置选择

使用 iloc 按位置选择数据:

subset = df.iloc[0:5, 1:3] print(subset) 

5.3 布尔索引

使用布尔索引进行数据过滤:

subset = df[df['Column1'] > 10] print(subset) 

5.4 多条件过滤

使用多个条件进行数据过滤:

subset = df[(df['Column1'] > 10) & (df['Column2'] < 20)] print(subset) 

6. 数据操作


6.1 添加、删除列

使用 insert() 函数添加列,使用 drop() 函数删除列:

df.insert(1, 'NewColumn', [1, 2, 3, 4, 5]) df.drop(columns=['OldColumn'], inplace=True) 

6.2 数据框合并

使用 concat()merge()join() 函数进行数据框合并:

# 使用 concat() 合并 df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]}) df2 = pd.DataFrame({'A': [5, 6], 'B': [7, 8]}) result = pd.concat([df1, df2], ignore_index=True)  # 使用 merge() 合并 df1 = pd.DataFrame({'key': ['K0', 'K1'], 'A': [1, 2]}) df2 = pd.DataFrame({'key': ['K0', 'K1'], 'B': [3, 4]}) result = pd.merge(df1, df2, on='key')  # 使用 join() 合并 df1 = pd.DataFrame({'A': [1, 2]}, index=['K0', 'K1']) df2 = pd.DataFrame({'B': [3, 4]}, index=['K0', 'K1']) result = df1.join(df2) 

6.3 数据透视表

使用 pivot_table() 函数创建数据透视表:

pivot_table = df.pivot_table(values='Value', index='Category', columns='Year', aggfunc='mean') print(pivot_table) 

6.4 交叉表

使用 crosstab() 函数创建交叉表:

crosstab = pd.crosstab(df['Category'], df['Year']) print(crosstab) 

7. 写入Excel文件


7.1 基本用法

使用 pd.DataFrame.to_excel() 函数将DataFrame写入Excel文件:

df.to_excel('output.xlsx', index=False) 

7.2 指定工作表名称

可以使用 sheet_name 参数指定工作表名称:

df.to_excel('output.xlsx', sheet_name='Sheet1', index=False) 

7.3 指定单元格位置

可以使用 startrowstartcol 参数指定单元格位置:

df.to_excel('output.xlsx', startrow=1, startcol=2, index=False) 

7.4 处理多个工作表

使用 ExcelWriter 类处理多个工作表:

with pd.ExcelWriter('output.xlsx') as writer:     df1.to_excel(writer, sheet_name='Sheet1', index=False)     df2.to_excel(writer, sheet_name='Sheet2', index=False) 

7.5 设置样式和格式

可以使用 openpyxl 库设置单元格样式和格式:

from openpyxl import Workbook from openpyxl.styles import Font  with pd.ExcelWriter('output.xlsx', engine='openpyxl') as writer:     df.to_excel(writer, sheet_name='Sheet1', index=False)     workbook = writer.book     worksheet = workbook['Sheet1']     for cell in worksheet['A'] + worksheet['B']:         cell.font = Font(bold=True) 

8. 实战项目


为了使实战项目更具实际操作性,我们设计一个简单的Excel数据集,该数据集包含一些虚拟的销售数据。这个数据集将包括以下列:

  • Date:销售日期
  • Region:销售区域
  • Product:产品名称
  • Quantity:销售数量
  • Unit Price:单价
  • Sales:销售额(通过 Quantity 和 Unit Price 计算得出)

以下是这个数据集的示例数据:

DateRegionProductQuantityUnit PriceSales
2023-01-01NorthProductA1020200
2023-01-01SouthProductB1530450
2023-01-02EastProductA2020400
2023-01-02WestProductC2525625
2023-01-03NorthProductB3030900
2023-01-03SouthProductC3525875
2023-01-04EastProductA4020800
2023-01-04WestProductB45301350
2023-01-05NorthProductC50251250
2023-01-05SouthProductA55201100

你可以将以上数据保存到一个Excel文件中,例如 sales_data.xlsx,并使用以下Python代码来读取、处理和分析这些数据。

8.1 读取真实Excel数据集

读取一个包含销售数据的Excel文件:

import pandas as pd  # 读取Excel文件 df = pd.read_excel('sales_data.xlsx') print(df.head()) 

8.2 数据清洗与预处理

进行数据清洗和预处理,包括处理缺失值、重命名列、删除重复数据等:

# 检查缺失值并填充 df.fillna(0, inplace=True)  # 重命名列 df.rename(columns={'Unit Price': 'Unit_Price'}, inplace=True)  # 删除重复数据 df.drop_duplicates(inplace=True) 

8.3 数据分析与可视化

进行数据分析和可视化,例如计算销售额总和并绘制图表:

import matplotlib.pyplot as plt  # 计算总销售额 total_sales = df['Sales'].sum() print(f'Total Sales: {total_sales}')  # 按区域汇总销售额 region_sales = df.groupby('Region')['Sales'].sum() print(region_sales)  # 绘制销售额柱状图 region_sales.plot(kind='bar') plt.xlabel('Region') plt.ylabel('Total Sales') plt.title('Total Sales by Region') plt.show() 

8.4 将结果写回Excel文件

将处理后的数据和分析结果写回Excel文件:

with pd.ExcelWriter('processed_sales_data.xlsx') as writer:     df.to_excel(writer, sheet_name='Data', index=False)     pd.DataFrame({'Total Sales': [total_sales]}).to_excel(writer, sheet_name='Summary', index=False)     region_sales.to_excel(writer, sheet_name='Region Sales') 

9. 性能优化


9.1 数据取样

对于大型数据集,可以使用 sample() 函数进行数据取样:

sampled_df = df.sample(n=1000) 

9.2 内存优化

使用 memory_usage() 函数检查内存使用情况,并使用 astype() 函数优化数据类型:

print(df.memory_usage(deep=True)) df['Column1'] = df['Column1'].astype('int32') 

9.3 矢量化操作

矢量化操作是指在操作数组或数据时,通过使用向量化函数(通常是数组级函数)来替代显式的循环,以实现更高效的计算。这种方法利用了底层C、Fortran等语言的高效实现,显著提升了计算速度。

在Pandas中,矢量化操作通常涉及对整个Series或DataFrame进行操作,而不需要显式地遍历每个元素。矢量化操作不仅使代码更简洁、更易读,还能大幅提高数据处理的性能。

使用矢量化操作提高性能,例如使用 apply() 函数进行批量操作:

df['NewColumn'] = df['Column1'].apply(lambda x: x * 2) 

以下是一些矢量化操作的示例:

示例1:简单数学运算

假设我们有一个包含销售数量的Series,我们希望将每个销售数量乘以2。

传统方法(使用循环):

import pandas as pd  # 创建示例数据 sales_quantities = pd.Series([10, 20, 30, 40, 50])  # 使用循环进行操作 doubled_quantities = [] for quantity in sales_quantities:     doubled_quantities.append(quantity * 2)  doubled_quantities = pd.Series(doubled_quantities) print(doubled_quantities) 

矢量化方法:

# 使用矢量化操作 doubled_quantities = sales_quantities * 2 print(doubled_quantities) 

示例2:应用自定义函数

假设我们有一个包含产品价格的DataFrame,我们希望对每个价格应用一个折扣函数。

传统方法(使用循环和apply):

import pandas as pd  # 创建示例数据 data = {'Product': ['A', 'B', 'C'], 'Price': [100, 200, 300]} df = pd.DataFrame(data)  # 定义折扣函数 def apply_discount(price):     return price * 0.9  # 使用apply方法 df['Discounted_Price'] = df['Price'].apply(apply_discount) print(df) 

矢量化方法:

# 使用矢量化操作 df['Discounted_Price'] = df['Price'] * 0.9 print(df) 

示例3:条件操作

假设我们有一个包含销售数据的DataFrame,我们希望根据销售额为每个记录添加一个“高销售”标签。

传统方法(使用循环):

import pandas as pd  # 创建示例数据 data = {'Product': ['A', 'B', 'C'], 'Sales': [150, 300, 450]} df = pd.DataFrame(data)  # 使用循环进行操作 high_sales_label = [] for sales in df['Sales']:     if sales > 200:         high_sales_label.append('High')     else:         high_sales_label.append('Low')  df['Sales_Label'] = high_sales_label print(df) 

矢量化方法:

# 使用矢量化操作 df['Sales_Label'] = df['Sales'].apply(lambda x: 'High' if x > 200 else 'Low') print(df) 

性能对比

矢量化操作通常比使用循环快得多,尤其是当数据量较大时。下面是一个简单的性能对比示例:

import pandas as pd import numpy as np import time  # 创建大规模示例数据 data = np.random.randint(1, 100, size=1000000) df = pd.DataFrame(data, columns=['Value'])  # 使用循环进行操作 start_time = time.time() doubled_values = [] for value in df['Value']:     doubled_values.append(value * 2) doubled_values = pd.Series(doubled_values) print("Loop time:", time.time() - start_time)  # 使用矢量化操作 start_time = time.time() doubled_values = df['Value'] * 2 print("Vectorized time:", time.time() - start_time) 

Loop time: 0.83 seconds
Vectorized time: 0.02 seconds


请注意,具体的时间取决于执行环境和硬件配置,但一般来说,矢量化操作的性能会显著优于显式循环。这个示例展示了在处理大数据集时,矢量化操作可以显著提升性能,通常会快一个数量级甚至多个数量级。使用矢量化操作不仅使代码更加简洁和易读,还能显著提高数据处理的效率。

相关内容

热门资讯

绝活儿辅助!广西老友玩老是输怎... 绝活儿辅助!广西老友玩老是输怎么办(辅助挂)都是真的有辅助app(讲解有挂)在进入广西老友玩老是输怎...
法门辅助!福建13水插件(辅助... 法门辅助!福建13水插件(辅助挂)一贯是有辅助技巧(有挂技术)1、许多玩家不知道福建13水插件辅助怎...
办法辅助!潮友会app下载官方... 办法辅助!潮友会app下载官方辅助器(辅助挂)真是真的是有辅助app(有挂教程)该软件可以轻松地帮助...
妙招辅助!邯郸胡乐挂辅助(辅助... 妙招辅助!邯郸胡乐挂辅助(辅助挂)好像存在有辅助插件(有挂方略)1、上手简单,内置详细流程视频教学,...
教程书辅助!乐酷辅助(辅助挂)... 教程书辅助!乐酷辅助(辅助挂)其实存在有辅助脚本(有挂细节)乐酷辅助能透视中分为三种模型:乐酷辅助模...
学习辅助!决战卡五星辅助(辅助... 学习辅助!决战卡五星辅助(辅助挂)本来真的是有辅助软件(有人有挂)学习辅助!决战卡五星辅助(辅助挂)...
绝活辅助!边锋嘉兴麻将辅助器(... 绝活辅助!边锋嘉兴麻将辅助器(辅助挂)真是真的有辅助神器(新版有挂)1、边锋嘉兴麻将辅助器公共底牌简...
举措辅助!枫叶辅助器(辅助挂)... 举措辅助!枫叶辅助器(辅助挂)本来存在有辅助技巧(竟然有挂)1、下载好枫叶辅助器正确养号方法之后点击...
讲义辅助!点我达辅助(辅助挂)... 讲义辅助!点我达辅助(辅助挂)一直存在有辅助技巧(有人有挂)1、点我达辅助辅助器安装包、点我达辅助辅...
模块辅助!威信茶馆有挂的吗(辅... 模块辅助!威信茶馆有挂的吗(辅助挂)一直真的是有辅助脚本(揭秘有挂)1、玩家可以在威信茶馆有挂的吗线...