Pandas供给了丰富的数据读取跟加载功能,支撑从CSV、Excel、数据库等多种数据源加载数据。
import pandas as pd
# 读取CSV文件
df = pd.read_csv('data.csv')
# 读取Excel文件
df = pd.read_excel('data.xlsx')
# 读取数据库
# df = pd.read_sql_query('SELECT * FROM table_name', connection)
usecols
参数指定须要读取的列。dtype
参数指定每列的数据范例。nrows
参数读取部分数据。利用Pandas的head()
, tail()
, info()
, describe()
等方法可能疾速检查数据的前多少行、后多少行、基本信息以及统计摘要。
# 检查前5行数据
df.head()
# 检查后5行数据
df.tail()
# 检查基本信息
df.info()
# 检查统计摘要
df.describe()
利用Pandas的布尔索引跟前提挑选功能可能便利地抉择跟过滤数据。
# 根据前提挑选数据
df[df['column_name'] > 0]
# 利用布尔索引
df.loc[df['column_name'] > 0]
loc
跟iloc
结合布尔索引停止行跟列的抉择。query
方法停止前提挑选。Pandas供给了丰富的数据清洗跟处理功能,包含处理缺掉值、反复值、异常值等。
# 处理缺掉值
df.fillna(method='ffill') # 前向填充
df.dropna() # 删除缺掉值
# 处理反复值
df.drop_duplicates()
# 处理异常值
df[(df['column_name'] > threshold) & (df['column_name'] < -threshold)]
fillna()
跟dropna()
处理缺掉值。drop_duplicates()
处理反复值。Pandas供给了多种数据重塑跟转换功能,如pivot_table()
, stack()
, unstack()
等。
# 创建透视表
pivot_table = df.pivot_table(values='value', index=['column1', 'column2'], columns='column3')
# 堆叠
stacked_df = df.stack()
# 反堆叠
unstacked_df = df.unstack()
pivot_table()
创建透视表。stack()
跟unstack()
停止数据堆叠跟反堆叠。Pandas供给了丰富的数据统计跟聚合功能,如groupby()
, sum()
, mean()
, count()
等。
# 分组统计
grouped_df = df.groupby('column_name').sum()
# 聚合
aggregated_df = df.groupby('column_name').agg({'column1': ['sum', 'mean', 'count']})
groupby()
停止分组统计。agg()
停止聚合操纵。Pandas供给了丰富的数据处理功能,实用于时光序列数据分析。
# 读取时光序列数据
time_series_data = pd.read_csv('time_series_data.csv', parse_dates=['date'])
# 时光序列聚合
time_series_data.resample('M').mean()
parse_dates
参数剖析日期列。resample()
停止时光序列聚合。Pandas是一个功能富强的数据处理库,控制其暗藏妙手技能可能大年夜大年夜进步数据处理效力。经由过程以上介绍,信赖你曾经对Pandas有了更深刻的懂得。