本教程版本:0.23.0
官网:http://pandas.pydata.org/
文档:http://pandas.pydata.org/pandas-docs/stable/
Pandas是一个高性能的数据操作和分析工具。它在Numpy的基础上,提供了一种高效的DataFrame数据结构,使得在Python中进行数据清洗和分析非常快捷。Pandas采用了很多Numpy的代码风格,但最大的不同在于pandas主要用来处理表格型或异质型数据,而Numpy则相反,它更适合处理同质并且是数值类型的数据。事实上大多数时候,我们使用Pandas多于Numpy。
Pandas最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的PyData开发团队继续开发和维护,属于PyData项目的一部分。Pandas最初被作为金融数据分析工具而开发出来,因此,pandas为时间序列分析提供了很好的支持。 Pandas的名称来自于面板数据(panel data)和python数据分析(data analysis)。面板数据是经济学中关于多维数据集的一个术语,在Pandas中也提供了panel的数据类型。
Pandas的主要特点:
通常我们都使用Anaconda发行版安装Pandas,如果你非要自己安装,可以使用:
pip install pandas conda install pandas python3 -m pip install --upgrade pandas
对于Linux,比如Ubuntu,可以使用下面的方法安装,但可能出现各种依赖缺失或者安装错误:
sudo apt-get install python-numpy python-scipy python-matplotlib ipython python-pandas python-sympy python-nose
安装完Pandas后,我们就可以在notebook中导入它了,通常我们会使用下面的国际惯例进行导入:
import pandas as pd
有时候,我们也会将它包含的两个重要数据结构也单独导入:
from pandas import Series, DataFrame
可以如下查看当前Pandas的版本信息:
pd.__version__
pandas,熊猫??