[问题] 大量资料groupby 速率问题

楼主: qwtl0213 (卷仔)   2023-05-28 23:16:09
大家好,小弟目前在处理大量资料时遇到了一些问题
我有一个dataset 大概有20000笔资料,而因为要用grid search 去找最佳参数,所以我目前
的做法是先把原始资料集复制N次 (N大概会抓到内存能负担得程度)然后再利用numba 向
量化的方式去进行向量化运算
而我想做的是把N组算出来的目标函数,依照每组参数进行相加(依照iteration 的编号相加
,目前想得出来的只有pandas 的 groupby 方法比较适合我) 但是用groupby 的话就会要花
费时间把大型array 转换成dataframe 在进行相加,这样速度就会慢很多
想请问各位有没有什么比较好的处理方法,感谢不尽!
作者: lycantrope (阿宽)   2023-05-28 23:53:00
polars
作者: celestialgod (天)   2023-05-29 11:17:00
作者: bearching (Pandora`s Box)   2023-06-04 11:37:00
问个可能不太正确的问题,如果把原始资料集复制一次算出目标函数存下来,然后把复制的资料集drop掉,再把原始资料集复制算下一个目标函数,如果这算法是符合需求的话,会省满多资源的,而且N的数量应该可以会比原本一口气算的多
楼主: qwtl0213 (卷仔)   2023-06-04 14:57:00
后来发现直接复制N次做向量化运算会快很多因为如果每次复制一次算一次代表有N组参数就要跑N次 或者我还没有想到其他方法哈哈
作者: celestialgod (天)   2023-06-04 17:24:00
如果有最小可执行的程式 才能帮你看怎么做 不然也是请鬼抓药单
作者: leighmeow (warau)   2023-06-17 14:48:00
CaskDask

Links booklink

Contact Us: admin [ a t ] ucptt.com