[问题] CSV资料可以依据column多笔配对吗？ DKnex PTT批踢踢实业坊

[问题] CSV资料可以依据column多笔配对吗？

楼主: DKnex (DK) 2022-07-27 17:07:27

大家好，小弟想再次求救
我有个表格，如图一
图一

我根据K字段count出重复值如L字段
但这不完全是我要的结果
我要的结果如图二
图二

我在Excel做的逻辑是：
1.首先从K字段count出重复出现的url_hash,接着将重复的url_hash当中keyword_id
用vlookup去找重复出现的keyword_id
2.当找到这些重复keyword_id后，又将这些连带出现的url_hash
用vlookup再找重复的url_hash
3.重复上述1和2直到整个资料找完找不到为止，就形成图二这样的结果
目前因为资料很多，需要用python做完比较快
但小弟不知道从何下手，根据EXCEL用的函数也就countifs 还有 Vlookup
不知道在python是要用IF ELSE？
还是有其他可以funtion可以帮到我呢？
任何意见都欢迎大家提供给我参考，谢谢。

作者: lycantrope (阿宽) 2022-07-27 17:21:00

你没解释输出要什么啊是同组的数值还是只要算个数https://pastebin.com/NS44Qfgs

作者: chang1248w (彩棠) 2022-07-28 10:13:00

groupby ?

作者: heavyking02 (皮诺丘) 2022-07-28 14:58:00

真滴有点难懂你的问题，不确定这样对不对，先新增一个空的column,然后df.groupby([‘count’,’url_hash’,’keyword_id’])[‘新增的空字段‘].sum()

作者: lambo (Lambo) 2022-07-28 19:11:00

所以您是要分别数keyword_id跟url_hash之后，再依url_hash排列而已吗

作者: lycantrope (阿宽) 2022-07-28 21:28:00

grouping，keyword url有相关就分成一组uuid只是用来产生测试资料，靠union_find把资料配对

作者: refusekkk (另类3k) 2022-07-29 20:51:00

我想读成dict

继续阅读

[问题] 卷商资料爬虫unknown [问题] 多笔list 循环执行david1329 [问题] 请问df的筛选strekm [家教] partial convolutional nnpatrick0302 [问题] csv选取资料后如何存盘？DKnex [讨论] 诚征python / mysql 解题sandrahuang Re: [问题] pyautogui编译成exe图片无法定位LaughPoint [问题] pyautogui编译成exe图片无法定位LaughPoint [资讯] 微开发者写作松活动分享alansyue 请教请问有懂日文的程式员吗？weechia