[问题] dataframe重复的row计数 penguinZZK PTT批踢踢实业坊

[问题] dataframe重复的row计数

楼主: penguinZZK (y.l) 2020-07-26 17:55:29

各位版友好，想请教关于dataframe的问题
假设我现在有一份表格(df)如下
A B C D
a 1 2 3
b 1 2 3
c 4 5 6
a 1 2 3
a 1 2 3
c 4 5 6
请问有方法计算重复的row分别出现几次吗？
目前知道 df[df.duplicated()].count() 可以得到所有重复出现的row的总次数
还有 df.drop_duplicates() 可以删除重复的资料
现在想新增一个column放重复次数，再将重复的部分删掉
希望能做成
A B C D count
a 1 2 3 3
b 1 2 3 1
c 4 5 6 2
但找不太到怎么先把重复几次记下来再删掉
希望版友指点，先感谢各位！

作者: mthsieh (Gleeman) 2020-07-26 18:14:00

df.groupby(list(df.columns)).size().reset_index(name=='count')

作者: hongyan (Yan) 2020-07-26 18:36:00

df.T.values_counts()

作者: Starcraft2 (来自星海的你) 2020-07-27 02:46:00

推一楼大二楼的看起来会报错?

楼主: penguinZZK (y.l) 2020-07-27 09:30:00

用m大的方法成功了，谢谢大家回复！

继续阅读

[问题] 关于杂凑hashnicha115 [问题] Aspect based sentiment analysisnchunerdy120 Re: [问题] excel套件问题smouse0220 [问题] Test 该用框架吗IcecreamHsu [问题] excel套件问题legov Fw: [情报] AI Lightning Talk每周四晚上9:30-10:30seiching [问题] 关于xgboost的node预测值interwise613 [问题] python爬虫问题shot0512 [问题] selenium问题shinle14 [问题] pyqt 鼠标点击事件创造按钮 (已解决)znmkhxrw