统计方法
Pandas是一个专门用于数据分析的库,所以其最强大的功能在于对数据统计的支持。由于一般进行数据分析时,通常采用表格方式,所以这里主要以DataFrame
为主列举常用的统计方法。
大部分统计方法都有一个参数axis
,其默认值为0。在默认情况下,在DataFrame
上调用统计方法,会对全部内容进行计算操作,但是可以通过指定参数axis
的值来指定只需操作的列,axis
参数既可以接受数字索引,也可以接受列标签名称索引。
下表中列出了常用的重要统计函数,其具体含义和使用方法可参考统计类书籍。
函数 | 功能 |
---|---|
.count() | 非空观测数量 |
.sum() | 所有值之和 |
.mean() | 平均值 |
.median() | 中位数 |
.mode() | 模值 |
.std() | 标准差 |
.min() | 最小值 |
.max() | 最大值 |
.abs() | 绝对值 |
.prod() | 所有元素的乘积 |
.cumsum() | 累计总和 |
.cumprod() | 累计乘积 |
.describe() | 计算有关列的统计信息摘要 |
.pct_change() | 环比,默认对列进行操作 |
.cov() | 协方差,计算所有列之间的协方差,支持Series |
.corr() | 计算相关性,支持Series |
.rank() | 数据排名 |