[问题] CSV资料可以依据column多笔配对吗?

楼主: DKnex (DK)   2022-07-27 17:07:27
大家好,小弟想再次求救
我有个表格,如图一
图一https://imgur.com/a/5r5SwNr
我根据K字段count出重复值如L字段
但这不完全是我要的结果
我要的结果如图二
图二https://imgur.com/a/Bmw8f0o
我在Excel做的逻辑是:
1.首先从K字段count出重复出现的url_hash,接着将重复的url_hash当中keyword_id
用vlookup去找重复出现的keyword_id
2.当找到这些重复keyword_id后,又将这些连带出现的url_hash
用vlookup再找重复的url_hash
3.重复上述1和2直到整个资料找完找不到为止,就形成图二这样的结果
目前因为资料很多,需要用python做完比较快
但小弟不知道从何下手,根据EXCEL用的函数也就countifs 还有 Vlookup
不知道在python是要用IF ELSE?
还是有其他可以funtion可以帮到我呢?
任何意见都欢迎大家提供给我参考,谢谢。
作者: lycantrope (阿宽)   2022-07-27 17:21:00
你没解释输出要什么啊 是同组的数值还是只要算个数https://pastebin.com/NS44Qfgs
作者: chang1248w (彩棠)   2022-07-28 10:13:00
groupby ?
作者: heavyking02 (皮诺丘)   2022-07-28 14:58:00
真滴有点难懂你的问题,不确定这样对不对,先新增一个空的column,然后df.groupby([‘count’,’url_hash’,’keyword_id’])[‘新增的空字段‘].sum()
作者: lambo (Lambo)   2022-07-28 19:11:00
所以您是要分别数keyword_id跟url_hash之后,再依url_hash排列而已吗
作者: lycantrope (阿宽)   2022-07-28 21:28:00
grouping,keyword url有相关就分成一组uuid只是用来产生测试资料,靠union_find把资料配对
作者: refusekkk (另类3k)   2022-07-29 20:51:00
我想读成dict

Links booklink

Contact Us: admin [ a t ] ucptt.com