统计方法

Pandas是一个专门用于数据分析的库,所以其最强大的功能在于对数据统计的支持。由于一般进行数据分析时,通常采用表格方式,所以这里主要以DataFrame为主列举常用的统计方法。

大部分统计方法都有一个参数axis,其默认值为0。在默认情况下,在DataFrame上调用统计方法,会对全部内容进行计算操作,但是可以通过指定参数axis的值来指定只需操作的列,axis参数既可以接受数字索引,也可以接受列标签名称索引。

下表中列出了常用的重要统计函数,其具体含义和使用方法可参考统计类书籍。

函数功能
.count()非空观测数量
.sum()所有值之和
.mean()平均值
.median()中位数
.mode()模值
.std()标准差
.min()最小值
.max()最大值
.abs()绝对值
.prod()所有元素的乘积
.cumsum()累计总和
.cumprod()累计乘积
.describe()计算有关列的统计信息摘要
.pct_change()环比,默认对列进行操作
.cov()协方差,计算所有列之间的协方差,支持Series
.corr()计算相关性,支持Series
.rank()数据排名