Pandas

阅读: 4673     评论:1

本教程版本:0.23.0

img

官网:http://pandas.pydata.org/

文档:http://pandas.pydata.org/pandas-docs/stable/

Pandas是一个高性能的数据操作和分析工具。它在Numpy的基础上,提供了一种高效的DataFrame数据结构,使得在Python中进行数据清洗和分析非常快捷。Pandas采用了很多Numpy的代码风格,但最大的不同在于pandas主要用来处理表格型或异质型数据,而Numpy则相反,它更适合处理同质并且是数值类型的数据。事实上大多数时候,我们使用Pandas多于Numpy。

Pandas最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的PyData开发团队继续开发和维护,属于PyData项目的一部分。Pandas最初被作为金融数据分析工具而开发出来,因此,pandas为时间序列分析提供了很好的支持。 Pandas的名称来自于面板数据(panel data)和python数据分析(data analysis)。面板数据是经济学中关于多维数据集的一个术语,在Pandas中也提供了panel的数据类型。

Pandas的主要特点:

  • 快速高效的DataFrame对象,具有默认和自定义的索引。
  • 将数据从不同文件格式加载到内存中的数据对象的工具。
  • 丢失数据的数据对齐和综合处理。
  • 重组和摆动日期集。
  • 基于标签的切片,索引和大数据集的子集。
  • 可以删除或插入来自数据结构的列。
  • 按数据分组进行聚合和转换。
  • 高性能合并和数据加入。
  • 时间序列功能。

通常我们都使用Anaconda发行版安装Pandas,如果你非要自己安装,可以使用:

pip install pandas
conda install pandas
python3 -m pip install --upgrade pandas

对于Linux,比如Ubuntu,可以使用下面的方法安装,但可能出现各种依赖缺失或者安装错误:

sudo apt-get install python-numpy python-scipy python-matplotlib ipython python-pandas python-sympy python-nose

安装完Pandas后,我们就可以在notebook中导入它了,通常我们会使用下面的国际惯例进行导入:

import pandas as pd

有时候,我们也会将它包含的两个重要数据结构也单独导入:

from pandas import Series, DataFrame

可以如下查看当前Pandas的版本信息:

pd.__version__

 随机数 Series 

评论总数: 1


点击登录后方可评论

user_image

pandas,熊猫??