在数据分析的工作中,80% 的时间都在做数据清洗。今天记录一下使用 Pandas 处理缺失值和异常值的常用技巧。
处理缺失值
dropna():直接丢弃含有缺失值的行。fillna():用均值、中位数或特定值填充。
数据透视表
Pandas 的 pivot_table 类似于 Excel 的数据透视表,非常强大。
python
import pandas as pd
df = pd.read_csv(‘data.csv’)
table = pd.pivot_table(df, values=‘sales’, index=‘region’, columns=‘year’, aggfunc=‘sum’)
print(table)