<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>Python on 进击的骑士</title>
    <link>https://knight134.com/tags/python/</link>
    <description>Recent content in Python on 进击的骑士</description>
    <generator>Hugo</generator>
    <language>zh-cn</language>
    <lastBuildDate>Sun, 12 May 2024 10:30:00 +0800</lastBuildDate>
    <atom:link href="https://knight134.com/tags/python/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>使用 Pandas 进行数据清洗实战</title>
      <link>https://knight134.com/posts/2024-05-12-data-analysis-pandas/</link>
      <pubDate>Sun, 12 May 2024 10:30:00 +0800</pubDate>
      <guid>https://knight134.com/posts/2024-05-12-data-analysis-pandas/</guid>
      <description>&lt;p&gt;在数据分析的工作中，80% 的时间都在做数据清洗。今天记录一下使用 Pandas 处理缺失值和异常值的常用技巧。&lt;/p&gt;
&lt;h3 id=&#34;处理缺失值&#34;&gt;处理缺失值&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;dropna()&lt;/code&gt;：直接丢弃含有缺失值的行。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;fillna()&lt;/code&gt;：用均值、中位数或特定值填充。&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;数据透视表&#34;&gt;数据透视表&lt;/h3&gt;
&lt;p&gt;Pandas 的 &lt;code&gt;pivot_table&lt;/code&gt; 类似于 Excel 的数据透视表，非常强大。
python&lt;/p&gt;
&lt;p&gt;import pandas as pd&lt;/p&gt;
&lt;p&gt;df = pd.read_csv(&amp;lsquo;data.csv&amp;rsquo;)&lt;/p&gt;
&lt;p&gt;table = pd.pivot_table(df, values=&amp;lsquo;sales&amp;rsquo;, index=&amp;lsquo;region&amp;rsquo;, columns=&amp;lsquo;year&amp;rsquo;, aggfunc=&amp;lsquo;sum&amp;rsquo;)&lt;/p&gt;
&lt;p&gt;print(table)&lt;/p&gt;</description>
    </item>
    <item>
      <title>机器学习入门：从零开始的炼丹之路</title>
      <link>https://knight134.com/posts/2024-05-10-ml-intro/</link>
      <pubDate>Fri, 10 May 2024 09:00:00 +0800</pubDate>
      <guid>https://knight134.com/posts/2024-05-10-ml-intro/</guid>
      <description>&lt;h2 id=&#34;什么是机器学习&#34;&gt;什么是机器学习？&lt;/h2&gt;
&lt;p&gt;机器学习是人工智能的一个分支，它使计算机能够在没有明确编程的情况下学习。简单来说，就是让机器从数据中寻找规律。&lt;/p&gt;
&lt;h2 id=&#34;我的学习路径&#34;&gt;我的学习路径&lt;/h2&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;基础理论&lt;/strong&gt;：吴恩达老师的课程是必看的。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;工具库&lt;/strong&gt;：熟练使用 &lt;code&gt;NumPy&lt;/code&gt; 和 &lt;code&gt;Pandas&lt;/code&gt; 处理数据。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;实战&lt;/strong&gt;：从 Kaggle 的经典赛题开始，比如 Titanic 生存预测。&lt;/li&gt;
&lt;/ol&gt;
&lt;h2 id=&#34;代码示例&#34;&gt;代码示例&lt;/h2&gt;
&lt;p&gt;python&lt;/p&gt;
&lt;p&gt;from sklearn.linear_model import LogisticRegression&lt;/p&gt;
&lt;p&gt;model = LogisticRegression()&lt;/p&gt;
&lt;h2 id=&#34;模拟训练数据&#34;&gt;模拟训练数据&lt;/h2&gt;
&lt;p&gt;X = [[0], [1], [2]]&lt;/p&gt;
&lt;p&gt;y = [0, 1, 1]&lt;/p&gt;
&lt;p&gt;model.fit(X, y)&lt;/p&gt;
&lt;p&gt;print(f&amp;quot;预测结果: {model.predict([[1.5]])}&amp;quot;)&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
