[问题] 大量资料groupby 速率问题 qwtl0213 PTT批踢踢实业坊

[问题] 大量资料groupby 速率问题

楼主: qwtl0213 (卷仔) 2023-05-28 23:16:09

大家好，小弟目前在处理大量资料时遇到了一些问题
我有一个dataset 大概有20000笔资料，而因为要用grid search 去找最佳参数，所以我目前
的做法是先把原始资料集复制N次（N大概会抓到内存能负担得程度）然后再利用numba 向
量化的方式去进行向量化运算
而我想做的是把N组算出来的目标函数，依照每组参数进行相加（依照iteration 的编号相加
，目前想得出来的只有pandas 的 groupby 方法比较适合我）但是用groupby 的话就会要花
费时间把大型array 转换成dataframe 在进行相加，这样速度就会慢很多
想请问各位有没有什么比较好的处理方法，感谢不尽！

作者: lycantrope (阿宽) 2023-05-28 23:53:00

polars

作者: celestialgod (å¤©) 2023-05-29 11:17:00

#1aOHwdpn

作者: bearching (Pandora`s Box) 2023-06-04 11:37:00

问个可能不太正确的问题，如果把原始资料集复制一次算出目标函数存下来，然后把复制的资料集drop掉，再把原始资料集复制算下一个目标函数，如果这算法是符合需求的话，会省满多资源的，而且Ｎ的数量应该可以会比原本一口气算的多

楼主: qwtl0213 (卷仔) 2023-06-04 14:57:00

后来发现直接复制N次做向量化运算会快很多因为如果每次复制一次算一次代表有N组参数就要跑N次或者我还没有想到其他方法哈哈

如果有最小可执行的程式才能帮你看怎么做不然也是请鬼抓药单

作者: leighmeow (warau) 2023-06-17 14:48:00

CaskDask

继续阅读

[问题] pyautogui无法在特定程式作用hdln [问题] 正则的分组匹配问题god1230321 [问题] 用python开发手机电话即时翻译问题jackjenny [家教] python 爬虫, 数据处理, 数据库储存pawfinder [问题] print输出对不齐asiagodfater Re: [问题]请教如何加快dataframe的条件判断celestialgod [问题]请教如何加快dataframe的条件判断liquidbox [问题] Robot framework 错误讯息寻问raindeer896 [问题] Selenium股东会电子投票？hjgx [问题] Numpy的flatten方法结果似乎有错怎么解?dosiris