引言
在數據驅動的時代,Python 已成為數據分析與可視化的首選東西。Pandas 跟 Matplotlib 是兩個在數據分析範疇廣泛利用的庫,Pandas 用於數據處理,而 Matplotlib 用於數據可視化。本文將具體介紹怎樣利用這兩個庫停止數據分析與可視化,幫助妳輕鬆實現數據分析流程。
情況籌備
在開端之前,請確保妳的 Python 情況已安裝以下庫:
- Pandas
- Matplotlib
- NumPy(可選,用於數值打算)
妳可能利用以下命令停止安裝:
pip install pandas matplotlib numpy
數據籌備
為了演示,我們將利用一個簡單的銷售數據集,包含產品稱號、銷售額跟銷售日期等信息。假設數據存儲在名為 sales_data.csv
的文件中。
數據載入與開端摸索
利用 Pandas 載入數據,並停止開端的數據摸索。
import pandas as pd
# 載入數據
data = pd.read_csv('sales_data.csv')
# 檢查數據前多少行
print(data.head())
# 檢查數據的基本信息
print(data.info())
# 統計描述
print(data.describe())
數據清洗
數據清洗是數據分析的重要步調,包含處理缺掉值、異常值、重複值等。
處理缺掉值
# 利用均值填充缺掉值
data['sales'] = data['sales'].fillna(data['sales'].mean())
# 刪除包含缺掉值的行
data = data.dropna()
處理異常值
# 刪除銷售額為負的行
data = data[data['sales'] >= 0]
處理重複值
# 刪除重複行
data = data.drop_duplicates()
數據分析
利用 Pandas 停止數據分析,如打算銷售額的分布、趨向等。
# 打算銷售額的分布
import matplotlib.pyplot as plt
plt.hist(data['sales'], bins=20)
plt.title('Sales Distribution')
plt.xlabel('Sales')
plt.ylabel('Frequency')
plt.show()
數據可視化
利用 Matplotlib 跟 Seaborn 停止數據可視化,展示數據的分布、趨向跟關係。
繪製折線圖
# 繪製銷售額隨時光的變更趨向
data['date'] = pd.to_datetime(data['date'])
data.sort_values('date', inplace=True)
plt.figure(figsize=(10, 5))
plt.plot(data['date'], data['sales'], marker='o')
plt.title('Sales Trend Over Time')
plt.xlabel('Date')
plt.ylabel('Sales')
plt.show()
繪製散點圖
# 繪製銷售額與銷售數量的關係
plt.figure(figsize=(10, 5))
plt.scatter(data['sales'], data['quantity'])
plt.title('Sales vs Quantity')
plt.xlabel('Sales')
plt.ylabel('Quantity')
plt.show()
繪製柱狀圖
# 繪製差別產品的銷售額
plt.figure(figsize=(10, 5))
data.groupby('product')['sales'].sum().plot(kind='bar')
plt.title('Sales by Product')
plt.xlabel('Product')
plt.ylabel('Sales')
plt.show()
總結
經由過程本文的介紹,妳曾經控制了利用 Pandas 跟 Matplotlib 停止數據分析與可視化的基本方法。在現實利用中,妳可能根據本人的須要停止數據清洗、分析跟可視化,以便更好地懂得跟洞察數據。