前言:笔者在学习pandas中groupby函数时,发现ax_index=True\False和group_key=True\False这两个参数相近又有所不同,特写出此文供大家分享。
一、首先创建一个DataFrame。
df = pd.DataFrame({'key1':list('aaabbbaabb'),
'key2':[1,2,2,1,2,1,1,2,1,2,],
'data1':np.random.randn(10),
'data2':np.random.randn(10)})
得到df:
二、group_keys分别在True和False时的影响。
a1 = df.groupby(['key1','key2'],group_keys=True).apply(lambda x:x.iloc[[0,1]])
# 匿名函数的作用是选出每组的前两行
得到a1
a2 = df1.groupby(['key1','key2'],group_keys=False).apply(lambda x:x.iloc[[0,1]])
得到a2
group_keys=False 可以禁用分组键所形成的索引,不会删去原始对象的索引。
三、as_index分别在True和False时的影响
b1 = df1.groupby(['key1','key2'],as_index=False).apply(lambda x:x.iloc[[0,1]])
得到b1
b2 = df1.groupby(['key1','key2'],as_index=False).apply(lambda x:x.iloc[[0,1]])
得b2
ax_index=False 可以禁用分组键作为索引的行为,同时自动给定一个索引。
四、ax_index和group_keys比较
当两者都是False的情况下,相同之处在于:都会禁用分组键。不同之处在于:ax_index在消除分组键的同时会自动生成一个索引。
五、group_keys的特殊情况
当调用聚合函数时,其本身的索引会失效,此时传递group_keys=False无效(与group_keys=True一样)