【揭秘Pandas數據分析面試】50題實戰解析,輕鬆應對職場挑戰

提問者:用戶LKXM 發布時間: 2025-06-08 02:37:48 閱讀時間: 3分鐘

最佳答案

1. Pandas簡介

Pandas是一個富強的Python數據分析庫,供給了疾速、機動、直不雅的數據構造,如DataFrame跟Series,以及豐富的數據分析東西。控制Pandas是成為一名優良數據分析師的必備技能。

2. Pandas基本操縱

2.1 導入Pandas庫

import pandas as pd

2.2 創建Series

arr = [0, 1, 2, 3, 4]
df = pd.Series(arr)

2.3 創建DataFrame

dates = pd.date_range('today', periods=6)
numarr = np.random.randn(6, 4)
columns = ['A', 'B', 'C', 'D']
df = pd.DataFrame(numarr, index=dates, columns=columns)

2.4 從CSV文件創建DataFrame

df = pd.read_csv('filename.csv', sep=';', encoding='gbk')

3. 數據清洗

3.1 檢查並處理缺掉值

df.dropna()  # 刪除包含缺掉值的行
df.fillna(value=0)  # 用0填充缺掉值

3.2 檢查並處理異常值

df[(df['price'] > 1000) | (df['minimumnights'] < 1)]

3.3 格局化日期欄位

df['date'] = pd.to_datetime(df['date'])

3.4 刪除不須要的列

df.drop(['unnecessary_column'], axis=1)

4. 數據處理

4.1 創建新的列

df['income'] = df['price'] * df['numberofreviews']

4.2 分組並打算每個地區的均勻價格

df.groupby('neighbourhood')['price'].mean()

4.3 轉換類別型數據為數值型

df['roomtype'] = pd.Categorical(df['roomtype']).codes

5. 數據分析

5.1 分析各個地區房源數量的分布

df['neighbourhood'].value_counts()

5.2 分析房源價格

df['price'].describe()

6. 數據可視化

6.1 利用Matplotlib繪製直方圖

import matplotlib.pyplot as plt
plt.hist(df['price'], bins=20)
plt.show()

6.2 利用Seaborn繪製散點圖

import seaborn as sns
sns.scatterplot(x='latitude', y='longitude', data=df)

7. Pandas高等技能

7.1 利用apply跟map

df.apply(lambda x: x.max())
df.map(lambda x: x * 2)

7.2 利用多級索引

df.set_index(['neighbourhood', 'roomtype'], inplace=True)

8. Pandas機能優化

8.1 利用矢量化操縱

df['income'] = df['price'] * df['numberofreviews']

8.2 利用Categorical數據範例

df['roomtype'] = pd.Categorical(df['roomtype'])

9. Pandas實戰案例

9.1 Airbnb數據集分析

分析紐約市Airbnb房源數據,包含價格、地位、房東信息跟批評數量等欄位。

9.2 股票市場數據分析

分析股票市場數據,包含收盤價、收盤價、最低價、最便宜跟成交量等欄位。

10. 總結

經由過程以上50題的實戰剖析,信賴你曾經控制了Pandas的基本操縱、數據清洗、數據處理、數據分析跟數據可視化等技能。退職場挑釁中,Pandas將成為你富強的數據分析東西。

相關推薦