Python Pandas 简介 (十八)

2018-12-17 17:44:49 ⋅ 22010 ⋅ 1 ⋅ 0

Pandas 简介

Pandas 是 Python 中的数据操纵和分析软件包。名称“Pandas”得名自计量经济学 Panel Data（面板数据）一词。Pandas 为 Python 带来了两个新的数据结构，即 Pandas Series 和 Pandas DataFrame。借助这两个数据结构，我们能够轻松直观地处理带标签数据和关系数据。这些课程将简单介绍 Pandas，并讲解一些最重要的 Pandas 功能。

在下面的课程中，你将学习：

如何导入 Pandas
如何使用各种方法创建 Pandas Series 和 DataFrame
如何访问及更改 Series 和 DataFrame 中的元素
如何对 Series 执行算术运算
如何向 DataFrame 中加载数据
如何处理非数 (NaN) 值

学习以下课程的前提是你已经熟悉 NumPy，并且已经学习了之前的 NumPy 课程。因此，为了避免重复讲解，我们将忽略已经在 NumPy 课程中介绍过的大量细节内容。如果你尚未学习 NumPy 课程，建议先学习这些课程。

下载 Pandas

Anaconda 中包含 Pandas。如果你的计算机尚未安装 Anaconda，请参阅 Anaconda 部分，详细了解如何在 PC 或 Mac 设备上安装 Anaconda。

Pandas 版本

和很多 Python 软件包一样，Pandas 也会时不时地更新。以下课程在制作时采用的是 Pandas 0.22 版。你可以检查你的 Pandas 版本：在 Jupyter notebook 中输入 !conda list pandas，或在 Anaconda 提示符处输入 conda list pandas。如果你的计算机安装的是另一个版本的 Pandas，你可以通过在 Anaconda 提示符处输入 conda install pandas=0.22 更新你的 Pandas 版本。随着新版 Pandas 的推出，一些功能可能会过时或被替换掉，因此确保在运行代码前，安装正确的 Pandas 版本。这样可以保证代码顺利运行。

Pandas 文档
Pandas 是一个强大的数据分析库，其中包含很多函数和功能。在这些入门课程中，我们将仅介绍 Pandas 的一些基本功能。如果你想深入学习 Pandas，确保参阅 Pandas 文档：

Pandas 文档

为何要使用 Pandas？

机器学习算法能取得最近的飞速发展，部分原因就是我们可以用大量数据训练算法。但是，对于数据来说，数量并不是唯一重要的方面，数据质量也同等重要。经常大型数据库并不能直接馈送到学习算法中。很多时候，大型数据集缺失值、存在离群值、不正确的值，等等…例如，如果数据存在大量丢失值或糟糕值，机器学习算法将无法达到很好的性能。因此，机器学习的重要一步是首先检查数据，通过进行一些基本的数据分析，确保数据很适合你的训练算法。这时候，Pandas 就派上用场了。Pandas Series 和 DataFrame 专门用于快速进行数据分析和操纵，并且使用起来灵活简单。以下是使 Pandas 成为出色的数据分析软件包的几个功能：

允许为行和列设定标签
可以针对时间序列数据计算滚动统计学指标
轻松地处理 NaN 值
能够将不同格式的数据加载到 DataFrame 中
可以将不同的数据集合并到一起
与 NumPy 和 Matplotlib 集成

因为这些原因以及其他原因，Pandas DataFrame 已经成为 Python 中最常用的数据分析 Pandas 对象之一。

为者常成，行者常至

Python Pandas 简介 (十八)

Pandas 简介

下载 Pandas

Pandas 版本

为何要使用 Pandas？

AI

作者：Corwien

专栏推荐

Python Pandas 简介 (十八)

Pandas 简介

下载 Pandas

Pandas 版本

为何要使用 Pandas？

添加附言

AI

作者：Corwien

专栏推荐