使用 Pandas 进行数据清洗实战

Sun, 12 May 2024 10:30:00 +0800

在数据分析的工作中，80% 的时间都在做数据清洗。今天记录一下使用 Pandas 处理缺失值和异常值的常用技巧。

Pandas 的 pivot_table 类似于 Excel 的数据透视表，非常强大。 python

import pandas as pd

df = pd.read_csv(‘data.csv’)

table = pd.pivot_table(df, values=‘sales’, index=‘region’, columns=‘year’, aggfunc=‘sum’)

print(table)

机器学习入门：从零开始的炼丹之路

Fri, 10 May 2024 09:00:00 +0800

机器学习是人工智能的一个分支，它使计算机能够在没有明确编程的情况下学习。简单来说，就是让机器从数据中寻找规律。

python

from sklearn.linear_model import LogisticRegression

model = LogisticRegression()

X = [[0], [1], [2]]

y = [0, 1, 1]

model.fit(X, y)

print(f"预测结果: {model.predict([[1.5]])}")