Python Pandas 简介 (十八)
Pandas 简介
Pandas 是 Python 中的数据操纵和分析软件包
。名称“Pandas”得名自计量经济学 Panel Data(面板数据)一词。Pandas 为 Python 带来了两个新的数据结构,即 Pandas Series 和 Pandas DataFrame。借助这两个数据结构,我们能够轻松直观地处理带标签数据和关系数据。这些课程将简单介绍 Pandas,并讲解一些最重要的 Pandas 功能。
在下面的课程中,你将学习:
- 如何导入 Pandas
- 如何使用各种方法创建 Pandas Series 和 DataFrame
- 如何访问及更改 Series 和 DataFrame 中的元素
- 如何对 Series 执行算术运算
- 如何向 DataFrame 中加载数据
- 如何处理非数 (NaN) 值
学习以下课程的前提是你已经熟悉 NumPy,并且已经学习了之前的 NumPy 课程。因此,为了避免重复讲解,我们将忽略已经在 NumPy 课程中介绍过的大量细节内容。如果你尚未学习 NumPy 课程,建议先学习这些课程。
下载 Pandas
Anaconda 中包含 Pandas。如果你的计算机尚未安装 Anaconda,请参阅 Anaconda 部分,详细了解如何在 PC 或 Mac 设备上安装 Anaconda。
Pandas 版本
和很多 Python 软件包一样,Pandas 也会时不时地更新。以下课程在制作时采用的是 Pandas 0.22 版。你可以检查你的 Pandas 版本:在 Jupyter notebook 中输入 !conda list pandas,或在 Anaconda 提示符处输入 conda list pandas。如果你的计算机安装的是另一个版本的 Pandas,你可以通过在 Anaconda 提示符处输入 conda install pandas=0.22 更新你的 Pandas 版本。随着新版 Pandas 的推出,一些功能可能会过时或被替换掉,因此确保在运行代码前,安装正确的 Pandas 版本。这样可以保证代码顺利运行。
Pandas 文档
Pandas 是一个强大的数据分析库,其中包含很多函数和功能。在这些入门课程中,我们将仅介绍 Pandas 的一些基本功能。如果你想深入学习 Pandas,确保参阅 Pandas 文档:
为何要使用 Pandas?
机器学习算法能取得最近的飞速发展,部分原因就是我们可以用大量数据训练算法。但是,对于数据来说,数量并不是唯一重要的方面,数据质量也同等重要。经常大型数据库并不能直接馈送到学习算法中。很多时候,大型数据集缺失值、存在离群值、不正确的值,等等…例如,如果数据存在大量丢失值或糟糕值,机器学习算法将无法达到很好的性能。因此,机器学习的重要一步是首先检查数据,通过进行一些基本的数据分析,确保数据很适合你的训练算法。这时候,Pandas 就派上用场了。Pandas Series 和 DataFrame 专门用于快速进行数据分析和操纵,并且使用起来灵活简单。以下是使 Pandas 成为出色的数据分析软件包的几个功能:
- 允许为行和列设定标签
- 可以针对时间序列数据计算滚动统计学指标
- 轻松地处理 NaN 值
- 能够将不同格式的数据加载到 DataFrame 中
- 可以将不同的数据集合并到一起
- 与 NumPy 和 Matplotlib 集成
因为这些原因以及其他原因,Pandas DataFrame 已经成为 Python 中最常用的数据分析 Pandas 对象之一。
为者常成,行者常至
自由转载-非商用-非衍生-保持署名(创意共享3.0许可证)