[问题] dataframe重复的row计数

楼主: penguinZZK (y.l)   2020-07-26 17:55:29
各位版友好,想请教关于dataframe的问题
假设我现在有一份表格(df)如下
A B C D
a 1 2 3
b 1 2 3
c 4 5 6
a 1 2 3
a 1 2 3
c 4 5 6
请问有方法计算重复的row分别出现几次吗?
目前知道 df[df.duplicated()].count() 可以得到所有重复出现的row的总次数
还有 df.drop_duplicates() 可以删除重复的资料
现在想新增一个column放重复次数,再将重复的部分删掉
希望能做成
A B C D count
a 1 2 3 3
b 1 2 3 1
c 4 5 6 2
但找不太到怎么先把重复几次记下来再删掉
希望版友指点,先感谢各位!
作者: mthsieh (Gleeman)   2020-07-26 18:14:00
df.groupby(list(df.columns)).size().reset_index(name=='count')
作者: hongyan (Yan)   2020-07-26 18:36:00
df.T.values_counts()
作者: Starcraft2 (来自星海的你)   2020-07-27 02:46:00
推一楼大 二楼的看起来会报错?
楼主: penguinZZK (y.l)   2020-07-27 09:30:00
用m大的方法成功了,谢谢大家回复!

Links booklink

Contact Us: admin [ a t ] ucptt.com