Pandas基础操作

刘江     2018年06月29日    分类: 机器学习   标签: 机器学习   阅读:  630     评论1


一、Pandas简介

Pandas是一个Python软件包,提供快速,灵活和富有表现力的数据结构,旨在使“关系”或“标记”数据的工作变得简单直观。Pandas纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具以及大量能使我们快速便捷地处理数据的函数和方法。

Pandas最初被作为金融数据分析工具而开发出来,因此,pandas为时间序列分析提供了很好的支持。Pandas的名称来自于面板数据(panel data)和python数据分析(data analysis)。paneldata是经济学中关于多维数据集的一个术语,在Pandas中也提供了panel的数据类型。

Pandas时一个开源的,BSD许可的库,为Python编程语言提供了高性能,易于使用的数据结构和数据分析工具。

二、Pandas安装

通常使用下面的方法,其它的不推荐:

三、Pandas 基本数据结构的使用

Pandas两个主要数据结构: Series和 Dataframe

Series是一种类似于一维数组的对象,它由一组数据(各种Numpy数据类型)以及一 组与之相关的数据标签(即索引1)组成。仅由一组数据即可产生最简单的 Series。

Series的使用演示如下(图片转载自网络):

image.png-91.8kB

DataFrame 是一个表格型的数据结构,它含有一组有序的列,每列可以 是不同的值类型 (数值、字符串、布尔值等)。

Dataframe既有行索引也有列索引,它可以被看做由Series组成的字典(共用同一个索引)。跟其他类似的数据结构相比(如R的dataframe),Data frame中面向行和面向列的操作基本上是平衡的。其实,Dataframe中的数据是以一个或多个二维块存放的(而不是列表、字典或别的一维数据结构)。

DataFrame的使用演示如下(图片转载自网络):

image.png-398.5kB


评论总数: 1



user_image
手动支持

为博主点赞


最新博客:

原来你是这样的Django
Django类视图
Django2.1新手图文入门教程
Django开发常用插件
Django2.1 版本更新说明!独家发布!