Pandas 基本

2020-08-18

如果用 python 的列表和字典来作比较, 那么可以说 Numpy 是列表形式的，没有数值标签，而 Pandas 就是字典形式。Pandas是基于Numpy构建的，让Numpy为中心的应用变得更加简单。

要使用pandas，首先需要了解他主要两个数据结构：Series 和 DataFrame。

一 Series

序列（series）是一个一维数组，只有一个维度（或称作轴）是行（row），在访问序列时，只需要设置一个索引（index）。pandas自动为序列创建了一个从0开始到N-1的序号，称作行的下标，行的位置。可以显式设置index参数，为每行设置标签，pandas把标签称作索引。用户可以通过索引、也可以通过位置来访问Series对象中的元素。Series的字符串表现形式为：索引在左边，值在右边。

import pandas as pd
import numpy as np
s = pd.Series([1,3,6,np.nan,44,1])

print(s)
"""
0     1.0
1     3.0
2     6.0
3     NaN
4    44.0
5     1.0
dtype: float64
"""
# 显示指定索引
series2 = pd.Series(['ant', 'bear', 'cat', 'dog'], index=['a', 'b', 'c', 'd'])

序列的构造函数定义是：

1	pandas.Series(data=None, index=None, dtype=None, name=None, copy=False)

name：序列是一个多行的结构，name是序列的名称
copy：复制数据，默认值是false

二、DataFrame

DataFrame是一个表格型的数据结构，它包含有一组有序的列，每列可以是不同的值类型（数值，字符串，布尔值等）。DataFrame既有行索引也有列索引，它可以被看做由Series组成的大字典。

创建 DataFrame 数据结构

DataFrame 的第一个参数是数值，第二、三参数是索引，索引默认是从 0 开始的数字。index：横轴；columns：纵轴。

还可以指定 type ，以及每个 type 对应的数据创建该数据结构。

dates = pd.date_range('20160101',periods=6)
df = pd.DataFrame(np.random.randn(6,4),index=dates,columns=['A','B','C','D'])
print(df)
>>> 
                   A         B         C         D
2016-01-01  0.412342 -0.697326 -1.598974  0.715174
2016-01-02  0.902309  0.037810 -0.150305 -0.886940
2016-01-03  0.027911 -1.238737  0.136429 -1.744023
2016-01-04  0.230733 -0.789422 -0.301230  0.714947
2016-01-05  1.133065  1.801966 -1.146782  1.305759
2016-01-06 -0.532867 -0.963527 -0.027217  2.258917
>>> 

df2 = pd.DataFrame({
    'col1' : ['A', 'A', 'B', np.nan, 'D', 'C'],
    'col2' : [2, 1, 9, 8, 7, 4],
    'col3' : [0, 1, 9, 4, 2, 3]
})
>>> print(df2)
  col1  col2  col3
0    A     2     0
1    A     1     1
2    B     9     9
3  NaN     8     4
4    D     7     2
5    C     4     3

DataFrame 方法

1）获取value 值

df['A']  #整个 A 列数据
df.values # 打印所有的值
df2.dtypes # 每个type的类型
df2.index
df2.columns

2）describe() 数据的总结

describe() 可以自动答应每个type（column）的计数，平均值，标准差，最小值，最大值以及较低的百分位数和50。默认情况下，较低的百分位数为25，较高的百分位数为75.50百分位数与中位数相同。

print(df2.describe())
>>> 
         A    C    D
count  4.0  4.0  4.0
mean   1.0  1.0  3.0
std    0.0  0.0  0.0
min    1.0  1.0  3.0
25%    1.0  1.0  3.0
50%    1.0  1.0  3.0
75%    1.0  1.0  3.0
max    1.0  1.0  3.0
>>>

3）翻转数据 transpose

1	print(df2.T)

4）数据排序输出

按照 index 排序：sort_index：

1	df2.sort_index(axis=1, ascending=False)

按照数据值（value）：sort_values(）：

1	DataFrame.sort_values(by, axis=0, ascending=True, inplace=False, kind='quicksort', na_position='last')

by这个参数要求传入一个字符或者是一个字符列表，用来指定按照axis的中的哪个元素来进行排序。
ascending这个参数的默认值是True，按照升序排序，当传入False时，按照降序进行排列。
kind这个参数表示按照什么样算法来进行排序，默认值是quicksort（快速排序），也可以传入mergesort（归并排序）或者是heapsort（堆排序）。
na_position是针对DataFrame中的空缺值的，默认值是last表示将空缺值放在排序的最后，也可以传入first放在最前。