使用 Pandas 进行数据清洗实战

在数据分析的工作中,80% 的时间都在做数据清洗。今天记录一下使用 Pandas 处理缺失值和异常值的常用技巧。 处理缺失值 dropna():直接丢弃含有缺失值的行。 fillna():用均值、中位数或特定值填充。 数据透视表 Pandas 的 pivot_table 类似于 Excel 的数据透视表,非常强大。 python import pandas as pd df = pd.read_csv(‘data.csv’) table = pd.pivot_table(df, values=‘sales’, index=‘region’, columns=‘year’, aggfunc=‘sum’) print(table)

May 12, 2024

机器学习入门:从零开始的炼丹之路

什么是机器学习? 机器学习是人工智能的一个分支,它使计算机能够在没有明确编程的情况下学习。简单来说,就是让机器从数据中寻找规律。 我的学习路径 基础理论:吴恩达老师的课程是必看的。 工具库:熟练使用 NumPy 和 Pandas 处理数据。 实战:从 Kaggle 的经典赛题开始,比如 Titanic 生存预测。 代码示例 python from sklearn.linear_model import LogisticRegression model = LogisticRegression() 模拟训练数据 X = [[0], [1], [2]] y = [0, 1, 1] model.fit(X, y) print(f"预测结果: {model.predict([[1.5]])}")

May 10, 2024