Pandas 导入导出合并 concat

2020-08-19

一、Pandas 导入导出

pandas可以读取与存取的资料格式有很多种，像csv、excel、json、html与pickle等…。

读取文件

#读取csv
data = pd.read_csv('student.csv')

#打印出data
print(data)

# 将资料存取成 pickle。我乱码了。。。
data.to_pickle('student.pickle')

二、Pandas 合并 concat

合并的时候，需要用一个变量去接受合并之后的数据，如果 df.append(df2) 之后，直接print(df), df 没有发生任何变化。需要 df = df.append(df2)，df 才会变化。concat 也是如此

axis (合并方向)

axis=0是预设值，因此未设定任何参数时，函数默认axis=0。ignore_index (重置 index)

# concat 纵向合并,横轴的 index 也只是合并没有更新
res = pd.concat([df1, df2, df3], axis=0)

#承上一个例子，并将index_ignore设定为True，会更新 index ，从 0 - N
res = pd.concat([df1, df2, df3], axis=0, ignore_index=True)

join (合并方式)

join=’outer’为预设值，因此未设定任何参数时，函数默认join=’outer’。此方式是依照column来做纵向合并，有相同的column上下合并在一起，其他独自的column个自成列，原本没有值的位置皆以NaN填充。

#定义资料集
df1 = pd.DataFrame(np.ones((3,4))*0, columns=['a','b','c','d'], index=[1,2,3])
df2 = pd.DataFrame(np.ones((3,4))*1, columns=['b','c','d','e'], index=[2,3,4])

#纵向"外"合并df1与df2
res = pd.concat([df1, df2], axis=0, join='outer')

print(res)
#     a    b    c    d    e
# 1  0.0  0.0  0.0  0.0  NaN
# 2  0.0  0.0  0.0  0.0  NaN
# 3  0.0  0.0  0.0  0.0  NaN
# 2  NaN  1.0  1.0  1.0  1.0
# 3  NaN  1.0  1.0  1.0  1.0
# 4  NaN  1.0  1.0  1.0  1.0

#重置index并打印结果
res = pd.concat([df1, df2], axis=0, join='inner', ignore_index=True)

join_axes (依照 axes 合并)

#依照`df1.index`进行横向合并，也就是合并之后的 index 是 df1的index，df2单独的index 行会删除，df2 没有的元素会 默认为 NAN
res = pd.concat([df1, df2], axis=1, join_axes=[df1.index])

#打印结果
print(res)
#     a    b    c    d    b    c    d    e
# 1  0.0  0.0  0.0  0.0  NaN  NaN  NaN  NaN
# 2  0.0  0.0  0.0  0.0  1.0  1.0  1.0  1.0
# 3  0.0  0.0  0.0  0.0  1.0  1.0  1.0  1.0

#没有使用 join_axes，并打印结果
res = pd.concat([df1, df2], axis=1)
print(res)
#     a    b    c    d    b    c    d    e
# 1  0.0  0.0  0.0  0.0  NaN  NaN  NaN  NaN
# 2  0.0  0.0  0.0  0.0  1.0  1.0  1.0  1.0
# 3  0.0  0.0  0.0  0.0  1.0  1.0  1.0  1.0
# 4  NaN  NaN  NaN  NaN  1.0  1.0  1.0  1.0

append (添加数据)

append只有纵向合并，没有横向合并。

1	res = df1.append(df2, ignore_index=True)

三、Pandas 合并 merge

pandas中的merge和concat类似,但主要是用于两组有key column的数据,统一索引的数据. 通常也被用在Database的处理当中

依据一组key合并

on 是按照哪一个 type 合并，这里是按照 type 为 ‘key’ 的纵列合并

1	res = pd.merge(left, right, on='key')

依据两组key合并

合并时有4种方法how = ['left', 'right', 'outer', 'inner']，预设值how='inner'。inner 就是相同的合并，不同的舍弃。

# 按照 key1 和 key2 相同合并，不同舍弃
res = pd.merge(left, right, on=['key1', 'key2'], how='inner')

# 按照 key1 和 key2 ，所有key1 和 key2相同合并，不同也合并，缺省值 NAN
res = pd.merge(left, right, on=['key1', 'key2'], how='outer')

# 按照 list 里面左边的 key1 来合并
res = pd.merge(left, right, on=['key1', 'key2'], how='left')

# 按照 list 里面右边的 key2 来合并
res = pd.merge(left, right, on=['key1', 'key2'], how='right')

Indicator 改变合并的记录位置

indicator=True会将合并的记录放在新的一列。

#定义资料集并打印出
df1 = pd.DataFrame({'col1':[0,1], 'col_left':['a','b']})
df2 = pd.DataFrame({'col1':[1,2,2],'col_right':[2,2,2]})

##
   col1 col_left
0     0        a
1     1        b
   col1  col_right
0     1          2
1     2          2
2     2          2
##   

# 依据col1进行合并，并启用indicator=True，最后打印出
res = pd.merge(df1, df2, on='col1', how='outer', indicator=True)

##
   col1 col_left  col_right      _merge
0     0        a        NaN   left_only
1     1        b        2.0        both
2     2      NaN        2.0  right_only
3     2      NaN        2.0  right_only

依据index合并

指定 index

#定义资料集并打印出
left = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                     'B': ['B0', 'B1', 'B2']},
                     index=['K0', 'K1', 'K2'])
right = pd.DataFrame({'C': ['C0', 'C2', 'C3'],
                      'D': ['D0', 'D2', 'D3']},
                     index=['K0', 'K2', 'K3'])
           
#依据左右资料集的index进行合并，how='outer',并打印出
res = pd.merge(left, right, left_index=True, right_index=True, how='outer')

#依据左右资料集的index进行合并，how='inner',并打印出
res = pd.merge(left, right, left_index=True, right_index=True, how='inner')

1  4
2  5
3  6

解决overlapping的问题

overlapping 就是合并重合。比如下面这个例子 boys 里面有 age，girls 里面也有 age，如果合并一个对象，怎么知道每组 age 是 boys 还是 girls。此时可以通过 suffixes 给 age 加上不同的后缀。

#定义资料集
boys = pd.DataFrame({'k': ['K0', 'K1', 'K2'], 'age': [1, 2, 3]})
girls = pd.DataFrame({'k': ['K0', 'K0', 'K3'], 'age': [4, 5, 6]})

#使用suffixes解决overlapping的问题
res = pd.merge(boys, girls, on='k', suffixes=['_boy', '_girl'], how='inner')
print(res)

#    age_boy   k  age_girl
# 0        1  K0         4
# 1        1  K0         5

一 、Pandas 导入导出